論文の概要: CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning
- arxiv url: http://arxiv.org/abs/2602.21655v1
- Date: Wed, 25 Feb 2026 07:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.746468
- Title: CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning
- Title(参考訳): CCCaption: 完全かつ正確な画像キャプションのためのデュアルリワード強化学習
- Authors: Zhijiang Tang, Linhua Wang, Jiaxin Qi, Weihao Jiang, Peng Hou, Anxiang Zeng, Jianqiang Huang,
- Abstract要約: CCCaption: 専用微調整コーパスを備えた双方向逆強化学習フレームワークについて紹介する。
完全性のために、私たちは多様なLVLMを使用して、画像を一連のビジュアルクエリに切り離し、これらのクエリにもっと答えるキャプションに報いる。
正当性については,サブキャプションクエリの正当性を検証することによって,幻覚を含む字幕を罰する。
- 参考スコア(独自算出の注目度): 23.289413412387223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning remains a fundamental task for vision language understanding, yet ground-truth supervision still relies predominantly on human-annotated references. Because human annotations reflect subjective preferences and expertise, ground-truth captions are often incomplete or even incorrect, which in turn limits caption models. We argue that caption quality should be assessed by two objective aspects: completeness (does the caption cover all salient visual facts?) and correctness (are the descriptions true with respect to the image?). To this end, we introduce CCCaption: a dual-reward reinforcement learning framework with a dedicated fine-tuning corpus that explicitly optimizes these properties to generate \textbf{C}omplete and \textbf{C}orrect \textbf{Captions}. For completeness, we use diverse LVLMs to disentangle the image into a set of visual queries, and reward captions that answer more of these queries, with a dynamic query sampling strategy to improve training efficiency. For correctness, we penalize captions that contain hallucinations by validating the authenticity of sub-caption queries, which are derived from the caption decomposition. Our symmetric dual-reward optimization jointly maximizes completeness and correctness, guiding models toward captions that better satisfy these objective criteria. Extensive experiments across standard captioning benchmarks show consistent improvements, offering a principled path to training caption models beyond human-annotation imitation.
- Abstract(参考訳): 画像キャプションは視覚言語理解の基本的な課題であり続けているが、根底からの監督は人間の注釈による参照に大きく依存している。
人間のアノテーションは主観的嗜好と専門性を反映しているため、接頭辞はしばしば不完全または不完全であり、結果的にキャプションモデルに制限を与える。
キャプションの品質は、完全性(キャプションは全ての健全な視覚的事実をカバーしているか?)と正しさ(画像に関して記述は真か?)の2つの客観的側面で評価されるべきである。
この目的のために、CCCaptionを紹介します。これは、特殊調整コーパスを備えた双方向逆強化学習フレームワークで、これらのプロパティを明示的に最適化し、 \textbf{C}omplete と \textbf{C}orrect \textbf{Captions} を生成する。
完全性のために、私たちは多様なLVLMを使用して、イメージを視覚的なクエリのセットに切り離し、これらのクエリにもっと答えるキャプションを報酬として、トレーニング効率を向上させるための動的クエリサンプリング戦略を用いています。
そこで我々は,字幕分解から派生したサブキャプションクエリの正当性を検証することによって,幻覚を含む字幕を罰する。
我々の対称二重逆最適化は、これらの客観的基準を満たすキャプションに向けて、完全性と正しさを共同で最大化する。
標準的なキャプションベンチマークに対する広範な実験は、人間のアノテーションの模倣を越えてキャプションモデルをトレーニングするための原則的なパスを提供する、一貫した改善を示している。
関連論文リスト
- CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning [90.19455861166745]
本稿では,キャプションの品質を再定義するトレーニングフレームワークであるCaptioning Reinforcement Learning (CapRL)を紹介する。
主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。
CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインのマージンは平均8.4%を超えた。
論文 参考訳(メタデータ) (2025-09-26T17:59:55Z) - ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。
本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。
450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-06-24T17:59:55Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [8.526212812623202]
State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。