論文の概要: Visually-Aware Context Modeling for News Image Captioning
- arxiv url: http://arxiv.org/abs/2308.08325v1
- Date: Wed, 16 Aug 2023 12:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 13:34:51.607444
- Title: Visually-Aware Context Modeling for News Image Captioning
- Title(参考訳): ニュース画像キャプションのための視覚的コンテキストモデリング
- Authors: Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens
- Abstract要約: 心理学的な研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。
画像の顔や字幕やアーティクルに名前を入れるための顔名モジュールを設計し、より優れた名前の埋め込みを学習する。
我々は,フレームワークの有効性を実証するための広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 61.04696420226725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of News Image Captioning is to generate an image caption according
to the content of both a news article and an image. To leverage the visual
information effectively, it is important to exploit the connection between the
context in the articles/captions and the images. Psychological studies indicate
that human faces in images draw higher attention priorities. On top of that,
humans often play a central role in news stories, as also proven by the
face-name co-occurrence pattern we discover in existing News Image Captioning
datasets. Therefore, we design a face-naming module for faces in images and
names in captions/articles to learn a better name embedding. Apart from names,
which can be directly linked to an image area (faces), news image captions
mostly contain context information that can only be found in the article.
Humans typically address this by searching for relevant information from the
article based on the image. To emulate this thought process, we design a
retrieval strategy using CLIP to retrieve sentences that are semantically close
to the image. We conduct extensive experiments to demonstrate the efficacy of
our framework. Without using additional paired data, we establish the new
state-of-the-art performance on two News Image Captioning datasets, exceeding
the previous state-of-the-art by 5 CIDEr points. We will release code upon
acceptance.
- Abstract(参考訳): ニュース画像キャプションの目的は、ニュース記事と画像の両方の内容に応じて画像キャプションを生成することである。
視覚情報を効果的に活用するためには、記事やキャプションのコンテキストと画像の関連性を活用することが重要である。
心理学的研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。
それに加えて、既存のNews Image Captioningデータセットで発見された顔名共起パターンによって証明されるように、ニュースストーリーにおいて人間はしばしば中心的な役割を果たす。
そこで,画像中の顔とキャプション/記事中の名前に対する顔認識モジュールをデザインし,より優れた名前埋め込みを学ぶ。
画像領域(顔)に直接リンクできる名前は別として、ニュース画像キャプションには記事にのみ見られるコンテキスト情報が含まれることが多い。
人間は通常、画像に基づいて記事から関連する情報を探すことでこの問題に対処する。
この思考過程をエミュレートするために,CLIPを用いた検索戦略を設計し,画像にセマンティックに近い文を検索する。
フレームワークの有効性を実証するための広範な実験を行う。
2つのニュース画像キャプションデータセットにおける新たな最先端性能を,新たなペアデータを用いずに確立する。
受け入れ次第、コードをリリースします。
関連論文リスト
- Understanding News Thumbnail Representativeness by Counterfactual
Text-Guided Contrastive Language-Image Pretraining [5.111382868644429]
本稿では,ニュース画像が主主題であるか否かに焦点をあてる。
テキスト誘導型コントラスト言語画像事前学習フレームワークであるCFT-CLIPを提案する。
論文 参考訳(メタデータ) (2024-02-17T01:27:29Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Show, Interpret and Tell: Entity-aware Contextualised Image Captioning
in Wikipedia [10.21762162291523]
本稿では,文脈知識を統合することで,ウィキペディア画像のキャプションを行う新しいタスクを提案する。
具体的には、ウィキペディアの記事やウィキメディアの画像、それに付随する記述を共同で推論するモデルを作成します。
論文 参考訳(メタデータ) (2022-09-21T16:14:15Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。
我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。
本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T17:36:49Z) - ICECAP: Information Concentrated Entity-aware Image Captioning [41.53906032024941]
本稿では,情報キャプションを生成するために,エンティティを意識したニュース画像キャプションタスクを提案する。
本モデルではまず,モーダリティ検索モデルを用いて関連文の粗い濃度を生成する。
BreakingNewsとGoodNewsの両方の実験では,提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2021-08-04T13:27:51Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。