論文の概要: Focus! Relevant and Sufficient Context Selection for News Image
Captioning
- arxiv url: http://arxiv.org/abs/2212.00843v1
- Date: Thu, 1 Dec 2022 20:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:45:00.000896
- Title: Focus! Relevant and Sufficient Context Selection for News Image
Captioning
- Title(参考訳): 集中しろ!
ニュース画像キャプションにおけるコンテキスト選択の関連性
- Authors: Mingyang Zhou, Grace Luo, Anna Rohrbach, Zhou Yu
- Abstract要約: News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
- 参考スコア(独自算出の注目度): 69.36678144800936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: News Image Captioning requires describing an image by leveraging additional
context from a news article. Previous works only coarsely leverage the article
to extract the necessary context, which makes it challenging for models to
identify relevant events and named entities. In our paper, we first demonstrate
that by combining more fine-grained context that captures the key named
entities (obtained via an oracle) and the global context that summarizes the
news, we can dramatically improve the model's ability to generate accurate news
captions. This begs the question, how to automatically extract such key
entities from an image? We propose to use the pre-trained vision and language
retrieval model CLIP to localize the visually grounded entities in the news
article and then capture the non-visual entities via an open relation
extraction model. Our experiments demonstrate that by simply selecting a better
context from the article, we can significantly improve the performance of
existing models and achieve new state-of-the-art performance on multiple
benchmarks.
- Abstract(参考訳): ニュース画像キャプションは、ニュース記事から追加のコンテキストを利用して画像を記述する必要がある。
事前の作業は、必要なコンテキストを抽出するために、記事を粗末に活用するだけであり、モデルが関連するイベントや名前付きエンティティを識別することは困難である。
本稿ではまず,(oracle が管理する)キーとなる名前付きエンティティをキャプチャするよりきめ細かいコンテキストと,ニュースを要約するグローバルコンテキストを組み合わせることで,正確なニュースキャプションを生成するモデルの能力を大幅に向上できることを示す。
イメージからこのようなキーエンティティを自動的に取り出すには、どうすればよいのか?
本稿では,事前学習された視覚・言語検索モデルクリップを用いて,ニュース記事中の視覚的接地されたエンティティをローカライズし,オープンリレーション抽出モデルを用いて非視覚エンティティをキャプチャする。
実験では,記事からより優れたコンテキストを選択することで,既存モデルの性能を大幅に向上し,複数のベンチマークで新たな最先端性能を実現することができることを示した。
関連論文リスト
- Understanding News Thumbnail Representativeness by Counterfactual
Text-Guided Contrastive Language-Image Pretraining [5.111382868644429]
本稿では,ニュース画像が主主題であるか否かに焦点をあてる。
テキスト誘導型コントラスト言語画像事前学習フレームワークであるCFT-CLIPを提案する。
論文 参考訳(メタデータ) (2024-02-17T01:27:29Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Visually-Aware Context Modeling for News Image Captioning [61.04696420226725]
心理学的な研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。
画像の顔や字幕やアーティクルに名前を入れるための顔名モジュールを設計し、より優れた名前の埋め込みを学習する。
我々は,フレームワークの有効性を実証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - "Let's not Quote out of Context": Unified Vision-Language Pretraining
for Context Assisted Image Captioning [40.01197694624958]
我々は,One For All(OFA)モデルに基づく新しい統合ビジョンランゲージ(VL)モデルを提案する。
我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。
本システムは,ベンチマークニュース画像キャプションデータセットにおいて,最大8.34CIDErのスコアを向上し,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-06-01T17:34:25Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Visual News: Benchmark and Challenges in News Image Captioning [18.865262609683676]
本稿では,ニュース画像キャプションタスクのためのエンティティ認識モデルであるVisual News Captionerを提案する。
また、100万以上のニュース画像からなる大規模なベンチマークであるVisual Newsを紹介します。
論文 参考訳(メタデータ) (2020-10-08T03:07:00Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。