論文の概要: Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP
Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.13936v1
- Date: Wed, 21 Feb 2024 17:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:31:30.808945
- Title: Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP
Guided Reinforcement Learning
- Title(参考訳): 識別的画像キャプション:CLIP指導強化学習における地中真実キャプションの活用
- Authors: Antoine Chaffin, Ewa Kijak, Vincent Claveau
- Abstract要約: 強化学習(RL)は、生成されたキャプションと入力画像の相互検索類似度スコアを報酬として使用してトレーニングをガイドする。
近年の研究では、訓練済みのクロスモーダル検索モデルを用いて報酬を得られることが示されており、参照キャプションの必要性を完全に排除している。
本稿では,GTキャプションを異なる方法で活用する画像キャプション訓練戦略を提案する。
- 参考スコア(独自算出の注目度): 9.443456804893207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training image captioning models using teacher forcing results in very
generic samples, whereas more distinctive captions can be very useful in
retrieval applications or to produce alternative texts describing images for
accessibility. Reinforcement Learning (RL) allows to use cross-modal retrieval
similarity score between the generated caption and the input image as reward to
guide the training, leading to more distinctive captions. Recent studies show
that pre-trained cross-modal retrieval models can be used to provide this
reward, completely eliminating the need for reference captions. However, we
argue in this paper that Ground Truth (GT) captions can still be useful in this
RL framework. We propose a new image captioning model training strategy that
makes use of GT captions in different ways. Firstly, they can be used to train
a simple MLP discriminator that serves as a regularization to prevent reward
hacking and ensures the fluency of generated captions, resulting in a textual
GAN setup extended for multimodal inputs. Secondly, they can serve as
additional trajectories in the RL strategy, resulting in a teacher forcing loss
weighted by the similarity of the GT to the image. This objective acts as an
additional learning signal grounded to the distribution of the GT captions.
Thirdly, they can serve as strong baselines when added to the pool of captions
used to compute the proposed contrastive reward to reduce the variance of
gradient estimate. Experiments on MS-COCO demonstrate the interest of the
proposed training strategy to produce highly distinctive captions while
maintaining high writing quality.
- Abstract(参考訳): 教師の強制力を用いた画像キャプションモデルの訓練は非常に一般的なサンプルとなるが、より特徴的なキャプションは検索アプリケーションやアクセシビリティのための画像を記述する代替テキストを作成するのに非常に有用である。
強化学習(Reinforcement Learning, RL)は、生成されたキャプションと入力イメージの相互検索類似度スコアをトレーニングをガイドするための報酬として使用することができる。
近年の研究では、訓練済みのクロスモーダル検索モデルを用いて報酬を得られることを示し、参照キャプションの必要性を完全に排除している。
しかし、本稿では、このRLフレームワークでは、GTキャプションは依然として有用である、と論じる。
本稿では,GTキャプションを異なる方法で活用する画像キャプションモデルトレーニング戦略を提案する。
まず、報酬ハッキングを防ぐために正規化として機能するシンプルなmlp判別器をトレーニングし、生成したキャプションの流動性を保証することで、マルチモーダル入力用にテキストgan設定を拡張することができる。
第二に、これらはRL戦略における追加の軌跡として機能し、教師がGTと画像の類似性によって損失を重み付けする。
この目的は、GTキャプションの分布に基づく追加の学習信号として機能する。
第3に、提案したコントラッシブ報酬を計算するために使用されるキャプションのプールに追加すると、勾配推定のばらつきを減らすために、強いベースラインとして機能する。
MS-COCOの実験は、高い筆記品質を維持しつつ、非常に独特なキャプションを生成するためのトレーニング戦略の関心を示すものである。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。