論文の概要: Retrieval-augmented Image Captioning
- arxiv url: http://arxiv.org/abs/2302.08268v1
- Date: Thu, 16 Feb 2023 12:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:00:19.086411
- Title: Retrieval-augmented Image Captioning
- Title(参考訳): 検索強化画像キャプション
- Authors: Rita Ramos, Desmond Elliott, Bruno Martins
- Abstract要約: 本稿では,入力画像とデータストアから検索したキャプションの集合が与えられた文を生成する画像キャプションに新たなアプローチを提案する。
我々のモデルにおけるエンコーダは、事前訓練されたV&L BERTを用いて、画像と検索されたキャプションを共同で処理する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダを生成タスクに利用することに貢献している。
- 参考スコア(独自算出の注目度): 15.266569206458648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by retrieval-augmented language generation and pretrained Vision and
Language (V&L) encoders, we present a new approach to image captioning that
generates sentences given the input image and a set of captions retrieved from
a datastore, as opposed to the image alone. The encoder in our model jointly
processes the image and retrieved captions using a pretrained V&L BERT, while
the decoder attends to the multimodal encoder representations, benefiting from
the extra textual evidence from the retrieved captions. Experimental results on
the COCO dataset show that image captioning can be effectively formulated from
this new perspective. Our model, named EXTRA, benefits from using captions
retrieved from the training dataset, and it can also benefit from using an
external dataset without the need for retraining. Ablation studies show that
retrieving a sufficient number of captions (e.g., k=5) can improve captioning
quality. Our work contributes towards using pretrained V&L encoders for
generative tasks, instead of standard classification tasks.
- Abstract(参考訳): 検索強化言語生成と事前学習されたビジョン・アンド・ランゲージ(V&L)エンコーダにインスパイアされ、入力画像とデータストアから取得したキャプションの集合に与えられた文を生成する画像キャプションへの新たなアプローチを提案する。
モデル内のエンコーダは、予め訓練されたv&l bertを使用して画像と検索キャプションを共同で処理し、デコーダは、検索されたキャプションからの余分なテキスト証拠の恩恵を受け、マルチモーダルエンコーダ表現に参加する。
COCOデータセットの実験結果から,この新たな視点から画像キャプションを効果的に定式化できることが示唆された。
extraと名付けられたこのモデルは、トレーニングデータセットから取得したキャプションを使用することでメリットを享受すると同時に、リトレーニングを必要とせずに外部データセットを使用することによるメリットも備えています。
アブレーション研究によれば、十分な数のキャプション(例えばk=5)を取得するとキャプションの品質が向上する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダによる生成タスクの利用に寄与する。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - LMCap: Few-shot Multilingual Image Captioning by Retrieval Augmented
Language Model Prompting [15.266569206458648]
本稿では,検索したキャプションを付加した言語モデルによって機能する多言語キャプションモデルLMCapを提案する。
地理的に多様な画像のXM3600データセットを用いた実験により、我々のモデルは、完全に教師付き多言語キャプションモデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-31T13:03:17Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。