論文の概要: Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation
- arxiv url: http://arxiv.org/abs/2307.14750v3
- Date: Mon, 14 Oct 2024 09:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:24.819563
- Title: Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation
- Title(参考訳): Retrieval-augmented Pseudo文生成によるアノテーションなし画像キャプションの探索
- Authors: Zhiyuan Li, Dongnan Liu, Heng Wang, Chaoyi Zhang, Weidong Cai,
- Abstract要約: 本稿では,大規模事前学習モデル (LPM) からの事前知識を蒸留し, 監視として活用する新たな戦略を提案する。
具体的には,Retrieval-augmented Pseudo Sentence Generation (RaPSG)を導入する。
実験結果から,SOTAキャプションの精度は様々な設定で優れていた。
- 参考スコア(独自算出の注目度): 21.54093527562344
- License:
- Abstract: Recently, training an image captioner without annotated image-sentence pairs has gained traction. Previous methods have faced limitations due to either using mismatched corpora for inaccurate pseudo annotations or relying on resource-intensive pre-training. To alleviate these challenges, we propose a new strategy where the prior knowledge from large pre-trained models (LPMs) is distilled and leveraged as supervision, and a retrieval process is integrated to further reinforce its effectiveness. Specifically, we introduce Retrieval-augmented Pseudo Sentence Generation (RaPSG), which can efficiently retrieve highly relevant short region descriptions from the mismatching corpora and use them to generate a variety of high-quality pseudo sentences via LPMs. Additionally, we introduce a fluency filter and a CLIP guidance objective to enhance contrastive information learning. Experimental results indicate that our method outperforms SOTA captioning models across various settings including zero-shot, unsupervised, semi-supervised, and cross-domain scenarios. Code is available at: https://github.com/Zhiyuan-Li-John/RaPSG.
- Abstract(参考訳): 近年,注釈付きイメージ・セマンス・ペアを使わずに画像キャプタを訓練する動きが活発化している。
従来の手法では、不正確な擬似アノテーションにミスマッチしたコーパスを使用するか、リソース集約型事前トレーニングに依存するため、制限に直面していた。
これらの課題を解決するため,大規模事前学習モデル (LPM) からの事前知識を蒸留し, 監視として活用する新たな戦略を提案し, その有効性を高めるために, 検索プロセスを統合する。
具体的には,Retrieval-augmented Pseudo Sentence Generation (RaPSG)を導入し,ミスマッチコーパスから関連性の高い短い領域記述を効率よく検索し,LPMを介して高品質な疑似文を生成する。
さらに、コントラスト情報学習を強化するために、流速フィルタとCLIP誘導目標を導入する。
実験結果から, ゼロショット, 教師なし, 半教師なし, クロスドメインシナリオなど, 様々な場面でSOTAキャプションモデルより優れていることがわかった。
コードは、https://github.com/Zhiyuan-Li-John/RaPSG.comで入手できる。
関連論文リスト
- Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP
Guided Reinforcement Learning [9.443456804893207]
強化学習(RL)は、生成されたキャプションと入力画像の相互検索類似度スコアを報酬として使用してトレーニングをガイドする。
近年の研究では、訓練済みのクロスモーダル検索モデルを用いて報酬を得られることが示されており、参照キャプションの必要性を完全に排除している。
本稿では,GTキャプションを異なる方法で活用する画像キャプション訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T17:05:06Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - ColdGANs: Taming Language GANs with Cautious Sampling Strategies [29.943949944682196]
GAN(Generative Adversarial Networks)は制約を緩和するが、テキストの離散性によって言語生成への応用が妨げられている。
古典的なサンプリングが不安定なトレーニングにどのように影響するかを示す。
我々は,サンプルを分散モードに近づけることで,よりスムーズな学習ダイナミックスを実現するGANフレームワークにおいて,代替的な探索戦略を検討することを提案する。
我々の知る限りでは、提案言語 GAN は MLE と好意的に比較され、3つの生成タスクにおける最先端技術の改善が得られた。
論文 参考訳(メタデータ) (2020-06-08T14:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。