論文の概要: Visually-Aware Context Modeling for News Image Captioning
- arxiv url: http://arxiv.org/abs/2308.08325v1
- Date: Wed, 16 Aug 2023 12:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 13:34:51.607444
- Title: Visually-Aware Context Modeling for News Image Captioning
- Title(参考訳): ニュース画像キャプションのための視覚的コンテキストモデリング
- Authors: Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens
- Abstract要約: 心理学的な研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。
画像の顔や字幕やアーティクルに名前を入れるための顔名モジュールを設計し、より優れた名前の埋め込みを学習する。
我々は,フレームワークの有効性を実証するための広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 61.04696420226725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of News Image Captioning is to generate an image caption according
to the content of both a news article and an image. To leverage the visual
information effectively, it is important to exploit the connection between the
context in the articles/captions and the images. Psychological studies indicate
that human faces in images draw higher attention priorities. On top of that,
humans often play a central role in news stories, as also proven by the
face-name co-occurrence pattern we discover in existing News Image Captioning
datasets. Therefore, we design a face-naming module for faces in images and
names in captions/articles to learn a better name embedding. Apart from names,
which can be directly linked to an image area (faces), news image captions
mostly contain context information that can only be found in the article.
Humans typically address this by searching for relevant information from the
article based on the image. To emulate this thought process, we design a
retrieval strategy using CLIP to retrieve sentences that are semantically close
to the image. We conduct extensive experiments to demonstrate the efficacy of
our framework. Without using additional paired data, we establish the new
state-of-the-art performance on two News Image Captioning datasets, exceeding
the previous state-of-the-art by 5 CIDEr points. We will release code upon
acceptance.
- Abstract(参考訳): ニュース画像キャプションの目的は、ニュース記事と画像の両方の内容に応じて画像キャプションを生成することである。
視覚情報を効果的に活用するためには、記事やキャプションのコンテキストと画像の関連性を活用することが重要である。
心理学的研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。
それに加えて、既存のNews Image Captioningデータセットで発見された顔名共起パターンによって証明されるように、ニュースストーリーにおいて人間はしばしば中心的な役割を果たす。
そこで,画像中の顔とキャプション/記事中の名前に対する顔認識モジュールをデザインし,より優れた名前埋め込みを学ぶ。
画像領域(顔)に直接リンクできる名前は別として、ニュース画像キャプションには記事にのみ見られるコンテキスト情報が含まれることが多い。
人間は通常、画像に基づいて記事から関連する情報を探すことでこの問題に対処する。
この思考過程をエミュレートするために,CLIPを用いた検索戦略を設計し,画像にセマンティックに近い文を検索する。
フレームワークの有効性を実証するための広範な実験を行う。
2つのニュース画像キャプションデータセットにおける新たな最先端性能を,新たなペアデータを用いずに確立する。
受け入れ次第、コードをリリースします。
関連論文リスト
- FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Assessing News Thumbnail Representativeness: Counterfactual text can enhance the cross-modal matching ability [5.111382868644429]
ニュース画像がニューステキストで議論されているアクターを表すかどうかに焦点をあてる。
我々は,1000個のニュースサムネイル画像とテキストペアのデータセットであるNewsTTを紹介する。
仮説に従って視覚と言語バイエンコーダを更新するコントラスト学習フレームワークであるCFT-CLIPを提案する。
論文 参考訳(メタデータ) (2024-02-17T01:27:29Z) - Visual Semantic Relatedness Dataset for Image Captioning [27.788077963411624]
そこで本研究では,COCO キャプションがシーン情報とともに拡張された,キャプションのためのテキストビジュアルコンテキストデータセットを提案する。
この情報は、テキスト類似性や意味的関係法など、任意のNLPタスクをキャプションシステムに活用するために使用することができる。
論文 参考訳(メタデータ) (2023-01-20T20:04:35Z) - ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions [6.066100464517522]
ニュースデータなどのドメインに存在する実世界のイメージキャプチャペアは、単純で直接記述的なキャプションを使用しない。
我々は、さまざまな状況下でオンラインニュース記事から抽出した抽象ニュースキャプティオNs dAtasetであるANNAをローンチした。
翻訳学習のような手法は抽象的なキャプションの理解において限られた成功を収めるが、コンテンツと文脈の特徴の関係を一貫して学習することができないことを示す。
論文 参考訳(メタデータ) (2023-01-05T17:19:01Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - ICECAP: Information Concentrated Entity-aware Image Captioning [41.53906032024941]
本稿では,情報キャプションを生成するために,エンティティを意識したニュース画像キャプションタスクを提案する。
本モデルではまず,モーダリティ検索モデルを用いて関連文の粗い濃度を生成する。
BreakingNewsとGoodNewsの両方の実験では,提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2021-08-04T13:27:51Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。