論文の概要: Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training
- arxiv url: http://arxiv.org/abs/2410.07336v1
- Date: Wed, 9 Oct 2024 18:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 20:56:57.457476
- Title: Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training
- Title(参考訳): 視覚・言語評価と学習のためのポジティブなコントラスト学習
- Authors: Sara Sarto, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: PAC-S++はCLIPモデルを利用した学習可能なメトリックであり、Webコンパイルされたデータとクリーンなデータの両方で事前トレーニングされている。
PAC-S++をキャプションモデルの微調整段階に組み込むことで,文の繰り返しや文法的誤りが少なく,意味的に豊かなキャプションが得られることを示す。
- 参考スコア(独自算出の注目度): 44.008094698200026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in caption generation, existing evaluation metrics often fail to capture the full quality or fine-grained details of captions. This is mainly due to their reliance on non-specific human-written references or noisy pre-training data. Still, finding an effective metric is crucial not only for captions evaluation but also for the generation phase. Metrics can indeed play a key role in the fine-tuning stage of captioning models, ultimately enhancing the quality of the generated captions. In this paper, we propose PAC-S++, a learnable metric that leverages the CLIP model, pre-trained on both web-collected and cleaned data and regularized through additional pairs of generated visual and textual positive samples. Exploiting this stronger and curated pre-training, we also apply PAC-S++ as a reward in the Self-Critical Sequence Training (SCST) stage typically employed to fine-tune captioning models. Extensive experiments on different image and video datasets highlight the effectiveness of PAC-S++ compared to popular metrics for the task, including its sensitivity to object hallucinations. Furthermore, we show that integrating PAC-S++ into the fine-tuning stage of a captioning model results in semantically richer captions with fewer repetitions and grammatical errors. Evaluations on out-of-domain benchmarks further demonstrate the efficacy of our fine-tuning approach in enhancing model capabilities. Source code and trained models are publicly available at: https://github.com/aimagelab/pacscore.
- Abstract(参考訳): キャプション生成の大幅な進歩にもかかわらず、既存の評価基準はキャプションの完全な品質や細かな詳細を捉えるのに失敗することが多い。
これは主に、非特定の人手による参照やノイズの多い事前学習データに依存しているためである。
それでも、効果的な指標の発見はキャプション評価だけでなく、生成フェーズにも不可欠である。
メトリクスはキャプションモデルの微調整段階で重要な役割を果たすことができ、最終的に生成されたキャプションの品質が向上する。
本稿では,CLIPモデルを利用した学習可能なメトリクスであるPAC-S++を提案する。
より強力でキュレートされた事前トレーニングを実施すれば、通常、微調整キャプションモデルに使用される自己批判シーケンストレーニング(SCST)段階の報酬として、PAC-S++を適用できる。
さまざまな画像およびビデオデータセットに対する大規模な実験は、対象幻覚に対する感受性を含む、タスクの一般的な指標と比較して、PAC-S++の有効性を強調している。
さらに, キャプションモデルの微調整段階にPAC-S++を組み込むことで, 文の繰り返しや文法的誤りが少なく, 意味的に豊かなキャプションが得られることを示す。
ドメイン外ベンチマークの評価は、モデル能力を高めるための細調整アプローチの有効性をさらに示す。
ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/pacscore.comで公開されている。
関連論文リスト
- Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization [44.008094698200026]
我々はDirect CLIP-Based Optimization (DiCO)と呼ばれる新しいトレーニングパラダイムを提案する。
提案手法は,高い相関性を有する学習可能なキャプション評価器から抽出した報酬モデルを共同で学習し,最適化する。
DiCOは、生成されたキャプションの安定性の向上と品質の向上だけでなく、既存の方法に比べて人間の好みと密接に一致している。
論文 参考訳(メタデータ) (2024-08-26T18:00:33Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - CLIP Meets Video Captioners: Attribute-Aware Representation Learning
Promotes Accurate Captioning [34.46948978082648]
ImageNet Pre-Training (INP) は通常、ビデオコンテンツをエンコードするために使用され、タスク指向ネットワークはスクラッチから微調整され、キャプション生成に対処する。
本稿では,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。
本稿では,映像コンテンツと属性の対応を学習するために,映像キャプションモデルを必要とする補助タスクであるDual Attribute Predictionを紹介する。
論文 参考訳(メタデータ) (2021-11-30T06:37:44Z) - Better Captioning with Sequence-Level Exploration [60.57850194028581]
課題の字幕化における現在のシーケンスレベルの学習目標の限界を示す。
理論的には、現在の目的はキャプションセットの精度側だけを最適化することである。
実証的な結果は、この目的によって訓練されたモデルは、リコール側で低いスコアを得る傾向があることを示している。
論文 参考訳(メタデータ) (2020-03-08T09:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。