Fugu-MT 論文翻訳(概要): CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning

論文の概要: CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning

arxiv url: http://arxiv.org/abs/2602.21655v1
Date: Wed, 25 Feb 2026 07:34:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.746468
Title: CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning
Title（参考訳）: CCCaption: 完全かつ正確な画像キャプションのためのデュアルリワード強化学習
Authors: Zhijiang Tang, Linhua Wang, Jiaxin Qi, Weihao Jiang, Peng Hou, Anxiang Zeng, Jianqiang Huang,
Abstract要約: CCCaption: 専用微調整コーパスを備えた双方向逆強化学習フレームワークについて紹介する。完全性のために、私たちは多様なLVLMを使用して、画像を一連のビジュアルクエリに切り離し、これらのクエリにもっと答えるキャプションに報いる。正当性については,サブキャプションクエリの正当性を検証することによって,幻覚を含む字幕を罰する。
参考スコア（独自算出の注目度）: 23.289413412387223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image captioning remains a fundamental task for vision language understanding, yet ground-truth supervision still relies predominantly on human-annotated references. Because human annotations reflect subjective preferences and expertise, ground-truth captions are often incomplete or even incorrect, which in turn limits caption models. We argue that caption quality should be assessed by two objective aspects: completeness (does the caption cover all salient visual facts?) and correctness (are the descriptions true with respect to the image?). To this end, we introduce CCCaption: a dual-reward reinforcement learning framework with a dedicated fine-tuning corpus that explicitly optimizes these properties to generate \textbf{C}omplete and \textbf{C}orrect \textbf{Captions}. For completeness, we use diverse LVLMs to disentangle the image into a set of visual queries, and reward captions that answer more of these queries, with a dynamic query sampling strategy to improve training efficiency. For correctness, we penalize captions that contain hallucinations by validating the authenticity of sub-caption queries, which are derived from the caption decomposition. Our symmetric dual-reward optimization jointly maximizes completeness and correctness, guiding models toward captions that better satisfy these objective criteria. Extensive experiments across standard captioning benchmarks show consistent improvements, offering a principled path to training caption models beyond human-annotation imitation.
Abstract（参考訳）: 画像キャプションは視覚言語理解の基本的な課題であり続けているが、根底からの監督は人間の注釈による参照に大きく依存している。人間のアノテーションは主観的嗜好と専門性を反映しているため、接頭辞はしばしば不完全または不完全であり、結果的にキャプションモデルに制限を与える。キャプションの品質は、完全性(キャプションは全ての健全な視覚的事実をカバーしているか?)と正しさ(画像に関して記述は真か?)の2つの客観的側面で評価されるべきである。この目的のために、CCCaptionを紹介します。これは、特殊調整コーパスを備えた双方向逆強化学習フレームワークで、これらのプロパティを明示的に最適化し、 \textbf{C}omplete と \textbf{C}orrect \textbf{Captions} を生成する。完全性のために、私たちは多様なLVLMを使用して、イメージを視覚的なクエリのセットに切り離し、これらのクエリにもっと答えるキャプションを報酬として、トレーニング効率を向上させるための動的クエリサンプリング戦略を用いています。そこで我々は,字幕分解から派生したサブキャプションクエリの正当性を検証することによって,幻覚を含む字幕を罰する。我々の対称二重逆最適化は、これらの客観的基準を満たすキャプションに向けて、完全性と正しさを共同で最大化する。標準的なキャプションベンチマークに対する広範な実験は、人間のアノテーションの模倣を越えてキャプションモデルをトレーニングするための原則的なパスを提供する、一貫した改善を示している。

関連論文リスト

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning [90.19455861166745]
本稿では,キャプションの品質を再定義するトレーニングフレームワークであるCaptioning Reinforcement Learning (CapRL)を紹介する。主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。 CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインのマージンは平均8.4%を超えた。
論文参考訳（メタデータ） (2025-09-26T17:59:55Z)
SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning [21.739084696595427]
SC-Captionerはイメージキャプションモデルの自己修正を可能にする強化学習フレームワークである。初期字幕と自己修正字幕のセット間の設定差を計算し、追加要素と削除要素を識別する。大規模な視覚言語モデルにSC-Captionerを適用すると、様々なシナリオでより良い画像キャプションが生成される。
論文参考訳（メタデータ） (2025-08-08T08:45:52Z)
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。 450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-06-24T17:59:55Z)
What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文参考訳（メタデータ） (2024-05-01T12:49:57Z)
Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [8.526212812623202]
State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
論文参考訳（メタデータ） (2023-06-20T15:13:02Z)
Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文参考訳（メタデータ） (2022-11-13T00:09:36Z)
Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文参考訳（メタデータ） (2022-09-25T22:56:04Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。