論文の概要: Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization
- arxiv url: http://arxiv.org/abs/2408.14547v1
- Date: Mon, 26 Aug 2024 18:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 17:51:48.942952
- Title: Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization
- Title(参考訳): 直接CLIPに基づく最適化によるイメージキャプション訓練パラダイムの再検討
- Authors: Nicholas Moratelli, Davide Caffagni, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: 我々はDirect CLIP-Based Optimization (DiCO)と呼ばれる新しいトレーニングパラダイムを提案する。
提案手法は,高い相関性を有する学習可能なキャプション評価器から抽出した報酬モデルを共同で学習し,最適化する。
DiCOは、生成されたキャプションの安定性の向上と品質の向上だけでなく、既存の方法に比べて人間の好みと密接に一致している。
- 参考スコア(独自算出の注目度): 44.008094698200026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conventional training approach for image captioning involves pre-training a network using teacher forcing and subsequent fine-tuning with Self-Critical Sequence Training to maximize hand-crafted captioning metrics. However, when attempting to optimize modern and higher-quality metrics like CLIP-Score and PAC-Score, this training method often encounters instability and fails to acquire the genuine descriptive capabilities needed to produce fluent and informative captions. In this paper, we propose a new training paradigm termed Direct CLIP-Based Optimization (DiCO). Our approach jointly learns and optimizes a reward model that is distilled from a learnable captioning evaluator with high human correlation. This is done by solving a weighted classification problem directly inside the captioner. At the same time, DiCO prevents divergence from the original model, ensuring that fluency is maintained. DiCO not only exhibits improved stability and enhanced quality in the generated captions but also aligns more closely with human preferences compared to existing methods, especially in modern metrics. Additionally, it maintains competitive performance in traditional metrics. Our source code and trained models are publicly available at https://github.com/aimagelab/DiCO.
- Abstract(参考訳): 従来のイメージキャプションのトレーニング手法では,教師の強制力によるネットワークの事前トレーニングや,手作りキャプションの指標を最大化するための自己批判シーケンストレーニングによる微調整を行う。
しかし、CLIP-ScoreやPAC-Scoreのようなモダンで高品質なメトリクスを最適化しようとすると、このトレーニング手法は不安定な問題に遭遇し、流動的で情報的なキャプションを生成するために必要な真の記述能力を得ることができない。
本稿では,Direct CLIP-Based Optimization (DiCO)と呼ばれる新たなトレーニングパラダイムを提案する。
提案手法は,高い相関性を有する学習可能なキャプション評価器から抽出した報酬モデルを共同で学習し,最適化する。
これはキャプタ内で直接、重み付けされた分類問題を解くことで実現される。
同時に、DiCOはオリジナルのモデルからの逸脱を防止し、流用性を維持する。
DiCOは、生成されたキャプションの安定性と品質の向上を示すだけでなく、既存の方法、特に現代のメトリクスと比較して、人間の好みと密接に一致している。
さらに、従来のメトリクスにおける競合的なパフォーマンスも維持する。
ソースコードとトレーニングされたモデルはhttps://github.com/aimagelab/DiCO.comで公開されています。
関連論文リスト
- Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training [44.008094698200026]
PAC-S++はCLIPモデルを利用した学習可能なメトリックであり、Webコンパイルされたデータとクリーンなデータの両方で事前トレーニングされている。
PAC-S++をキャプションモデルの微調整段階に組み込むことで,文の繰り返しや文法的誤りが少なく,意味的に豊かなキャプションが得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T18:00:09Z) - Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Image Captioners Are Scalable Vision Learners Too [61.98796478791261]
画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。
以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T17:18:01Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Efficient Modeling of Future Context for Image Captioning [38.52032153180971]
非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。
提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
論文 参考訳(メタデータ) (2022-07-22T06:21:43Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。