論文の概要: Focus! Relevant and Sufficient Context Selection for News Image
Captioning
- arxiv url: http://arxiv.org/abs/2212.00843v1
- Date: Thu, 1 Dec 2022 20:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:45:00.000896
- Title: Focus! Relevant and Sufficient Context Selection for News Image
Captioning
- Title(参考訳): 集中しろ!
ニュース画像キャプションにおけるコンテキスト選択の関連性
- Authors: Mingyang Zhou, Grace Luo, Anna Rohrbach, Zhou Yu
- Abstract要約: News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
- 参考スコア(独自算出の注目度): 69.36678144800936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: News Image Captioning requires describing an image by leveraging additional
context from a news article. Previous works only coarsely leverage the article
to extract the necessary context, which makes it challenging for models to
identify relevant events and named entities. In our paper, we first demonstrate
that by combining more fine-grained context that captures the key named
entities (obtained via an oracle) and the global context that summarizes the
news, we can dramatically improve the model's ability to generate accurate news
captions. This begs the question, how to automatically extract such key
entities from an image? We propose to use the pre-trained vision and language
retrieval model CLIP to localize the visually grounded entities in the news
article and then capture the non-visual entities via an open relation
extraction model. Our experiments demonstrate that by simply selecting a better
context from the article, we can significantly improve the performance of
existing models and achieve new state-of-the-art performance on multiple
benchmarks.
- Abstract(参考訳): ニュース画像キャプションは、ニュース記事から追加のコンテキストを利用して画像を記述する必要がある。
事前の作業は、必要なコンテキストを抽出するために、記事を粗末に活用するだけであり、モデルが関連するイベントや名前付きエンティティを識別することは困難である。
本稿ではまず,(oracle が管理する)キーとなる名前付きエンティティをキャプチャするよりきめ細かいコンテキストと,ニュースを要約するグローバルコンテキストを組み合わせることで,正確なニュースキャプションを生成するモデルの能力を大幅に向上できることを示す。
イメージからこのようなキーエンティティを自動的に取り出すには、どうすればよいのか?
本稿では,事前学習された視覚・言語検索モデルクリップを用いて,ニュース記事中の視覚的接地されたエンティティをローカライズし,オープンリレーション抽出モデルを用いて非視覚エンティティをキャプチャする。
実験では,記事からより優れたコンテキストを選択することで,既存モデルの性能を大幅に向上し,複数のベンチマークで新たな最先端性能を実現することができることを示した。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - "Let's not Quote out of Context": Unified Vision-Language Pretraining
for Context Assisted Image Captioning [40.01197694624958]
我々は,One For All(OFA)モデルに基づく新しい統合ビジョンランゲージ(VL)モデルを提案する。
我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。
本システムは,ベンチマークニュース画像キャプションデータセットにおいて,最大8.34CIDErのスコアを向上し,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-06-01T17:34:25Z) - Visual News: Benchmark and Challenges in News Image Captioning [18.865262609683676]
本稿では,ニュース画像キャプションタスクのためのエンティティ認識モデルであるVisual News Captionerを提案する。
また、100万以上のニュース画像からなる大規模なベンチマークであるVisual Newsを紹介します。
論文 参考訳(メタデータ) (2020-10-08T03:07:00Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。