論文の概要: Fluent and Accurate Image Captioning with a Self-Trained Reward Model
- arxiv url: http://arxiv.org/abs/2408.16827v1
- Date: Thu, 29 Aug 2024 18:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:18:55.810592
- Title: Fluent and Accurate Image Captioning with a Self-Trained Reward Model
- Title(参考訳): 自己学習リワードモデルによるフルーレント・高精度画像キャプション
- Authors: Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: 本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
- 参考スコア(独自算出の注目度): 47.213906345208315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning image captioning models with hand-crafted rewards like the CIDEr metric has been a classical strategy for promoting caption quality at the sequence level. This approach, however, is known to limit descriptiveness and semantic richness and tends to drive the model towards the style of ground-truth sentences, thus losing detail and specificity. On the contrary, recent attempts to employ image-text models like CLIP as reward have led to grammatically incorrect and repetitive captions. In this paper, we propose Self-Cap, a captioning approach that relies on a learnable reward model based on self-generated negatives that can discriminate captions based on their consistency with the image. Specifically, our discriminator is a fine-tuned contrastive image-text model trained to promote caption correctness while avoiding the aberrations that typically happen when training with a CLIP-based reward. To this end, our discriminator directly incorporates negative samples from a frozen captioner, which significantly improves the quality and richness of the generated captions but also reduces the fine-tuning time in comparison to using the CIDEr score as the sole metric for optimization. Experimental results demonstrate the effectiveness of our training strategy on both standard and zero-shot image captioning datasets.
- Abstract(参考訳): CIDErメトリックのような手作りの報酬を伴う微調整画像キャプションモデルは、シーケンスレベルでキャプション品質を促進するための古典的な戦略である。
しかし、このアプローチは記述性や意味的豊かさを制限することで知られており、そのモデルが接尾辞文のスタイルに傾き、詳細さと特異性を失う傾向にある。
それに対して、最近のCLIPのような画像テキストモデルを報酬として採用しようとする試みは、文法的に間違って反復的なキャプションをもたらしている。
本稿では,画像との整合性に基づいてキャプションを識別できる自己生成ネガティブに基づく,学習可能な報酬モデルに基づくキャプション方式であるSelf-Capを提案する。
特に,我々の判別器は,CLIPベースの報酬を用いたトレーニングにおいて発生する異常を回避しつつ,字幕の正当性を促進するために訓練された微調整のコントラスト画像テキストモデルである。
この目的のために, 冷凍キャプションからの負のサンプルを直接取り込み, 生成したキャプションの品質と豊かさを大幅に向上させるとともに, CIDErスコアを最適化の唯一の指標として用いた場合と比較して微調整時間を短縮する。
実験により,標準的な画像キャプションデータセットとゼロショット画像キャプションデータセットの両方に対するトレーニング戦略の有効性が示された。
関連論文リスト
- Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization [44.008094698200026]
我々はDirect CLIP-Based Optimization (DiCO)と呼ばれる新しいトレーニングパラダイムを提案する。
提案手法は,高い相関性を有する学習可能なキャプション評価器から抽出した報酬モデルを共同で学習し,最適化する。
DiCOは、生成されたキャプションの安定性の向上と品質の向上だけでなく、既存の方法に比べて人間の好みと密接に一致している。
論文 参考訳(メタデータ) (2024-08-26T18:00:33Z) - Guiding Image Captioning Models Toward More Specific Captions [32.36062034676917]
トレーニングプロセスに最小限の変更を加えることで,より具体的なキャプションを生成することが可能であることを示す。
本研究では, 自動回帰キャプションモデルに対して, キャプション上の条件分布と非条件分布の両方を微調整することで, 分類器レスガイダンスを実装した。
論文 参考訳(メタデータ) (2023-07-31T14:00:12Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - On Distinctive Image Captioning via Comparing and Reweighting [52.3731631461383]
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
論文 参考訳(メタデータ) (2022-04-08T08:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。