論文の概要: Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction
- arxiv url: http://arxiv.org/abs/2512.04309v1
- Date: Wed, 03 Dec 2025 22:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.913122
- Title: Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction
- Title(参考訳): 検索拡張とモダリティギャップ補正による画像キャプションのためのテキストオンリートレーニング
- Authors: Rui Fonseca, Bruno Martins, Gil Rocha,
- Abstract要約: TOMCapは改良されたテキストのみのトレーニング手法で、画像キャプチャペアをアライメントすることなくキャプションを実行する。
TOMCapは、他のトレーニングフリーおよびテキストオンリーメソッドよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.8722109816646864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning has drawn considerable attention from the natural language processing and computer vision fields. Aiming to reduce the reliance on curated data, several studies have explored image captioning without any humanly-annotated image-text pairs for training, although existing methods are still outperformed by fully supervised approaches. This paper proposes TOMCap, i.e., an improved text-only training method that performs captioning without the need for aligned image-caption pairs. The method is based on prompting a pre-trained language model decoder with information derived from a CLIP representation, after undergoing a process to reduce the modality gap. We specifically tested the combined use of retrieved examples of captions, and latent vector representations, to guide the generation process. Through extensive experiments, we show that TOMCap outperforms other training-free and text-only methods. We also analyze the impact of different choices regarding the configuration of the retrieval-augmentation and modality gap reduction components.
- Abstract(参考訳): 画像キャプションは自然言語処理やコンピュータビジョンの分野から大きな注目を集めている。
キュレートされたデータへの依存を減らすことを目的として、既存の手法は、完全に教師されたアプローチによって改善されているものの、人間の注記された画像テキストペアなしで画像キャプションを探索する研究がいくつかある。
本稿では,文字のみのトレーニングを改良したTOMCapを提案する。
この方法は、CLIP表現から派生した情報で事前訓練された言語モデルデコーダを誘導し、モダリティギャップを低減するプロセスを実行する。
具体的には,検索したキャプションの例と潜在ベクトル表現の併用による生成過程の導出について検討した。
大規模な実験を通じて、TOMCapは他のトレーニングなしおよびテキストのみの手法よりも優れていることを示す。
また,検索強化成分とモダリティギャップ低減成分の設定に関して,異なる選択が与える影響を解析した。
関連論文リスト
- IFCap: Image-like Retrieval and Frequency-based Entity Filtering for
Zero-shot Captioning [3.8265756182141346]
テキストの特徴を視覚的に関連性のある特徴と整合させてモダリティギャップを緩和する,イメージライクな検索手法を提案する。
本手法は,検索したキャプションを入力特徴と統合したFusion Moduleを設計することにより,生成されたキャプションの精度をさらに向上する。
論文 参考訳(メタデータ) (2024-09-26T16:47:32Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。