論文の概要: VCap: Hypergeometric Rewards for Weak-to-Strong Visual Captioning
- arxiv url: http://arxiv.org/abs/2605.28023v1
- Date: Wed, 27 May 2026 06:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.801169
- Title: VCap: Hypergeometric Rewards for Weak-to-Strong Visual Captioning
- Title(参考訳): VCap: 弱めとストロングのビジュアルキャプションのためのハイパージオメトリ・リワード
- Authors: Xingyu Lu, Jinpeng Wang, Yi-Fan Zhang, Yankai Yang, Yancheng Long, Yiyang Fan, Xuanyu Zheng, Haonan Fan, Kaiyu Jiang, Tianke Zhang, Changyi Liu, Bin Wen, Fan Yang, Tingting Gao, Han Li, Chun Yuan,
- Abstract要約: 本稿では,参照キャプション(証人)と視覚信号(代弁者)とをペアにする,証人-代弁者報酬であるVCapを提案する。
VCapは、キャプションの品質検証のための超幾何分布レベルの精度を持つ報酬信号を提供する。
実験では,VCapでトレーニングした8Bモデルは,複数の画像およびビデオキャプションベンチマーク上で,オープンソースおよびクローズドソースSOTAモデルより優れていた。
- 参考スコア(独自算出の注目度): 57.588999592609646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual captioning requires models to capture visual content faithfully while minimizing both omission and hallucination. As the dominant paradigm for captioning, MLLMs have achieved strong performance through scaling and high-quality data. Recently, RL has emerged as a key route to driving MLLMs toward higher precision and broader coverage, however, existing reward designs for captioning fail to provide fine-grained and reliable signals for factual verification, limiting their effectiveness. To address this, we propose VCap, a Witness-Adjudicator reward that pairs the reference caption (a witness) with the visual signal (an adjudicator). By explicitly verifying factual consistency between the reference and policy-generated captions grounded in the visual signal, VCap delivers a reward signal with hypergeometric-distribution-level precision for caption quality verification. This design enables effective learning even from imperfect references, facilitating weak-to-strong generalization in RL training. In our experiments, an 8B model trained with VCap outperforms open- and closed-source SOTA models on multiple image and video captioning benchmarks. Human evaluation further confirms its strong alignment with factual correctness. Additionally, VCap improves MLLM perceptual capability, generalizes across tasks, and surpasses best-of-N distillation, challenging prior assumptions about RLVR.
- Abstract(参考訳): 視覚的なキャプションは、排便と幻覚を最小化しながら、視覚的コンテンツを忠実にキャプチャするモデルを必要とする。
MLLMはキャプションの主要なパラダイムとして、スケーリングと高品質なデータを通じて強力なパフォーマンスを実現している。
近年、RLはMLLMを高い精度と広範なカバレッジに向けて駆動するための重要なルートとして登場したが、既存のキャプションの報酬設計では、事実検証のための微細で信頼性の高い信号が得られず、その有効性は制限されている。
そこで本研究では,視覚信号(補助者)と参照キャプション(証人)をペアリングする,証人-代弁者報酬であるVCapを提案する。
視覚信号に接地された基準とポリシー生成キャプション間の事実整合性を明示的に検証することにより、VCapは、キャプション品質検証のためのハイパージオメトリ配信レベル精度の報酬信号を提供する。
この設計により、不完全な参照から効果的な学習が可能となり、RLトレーニングにおける弱い対強の一般化が容易になる。
実験では,VCapでトレーニングした8Bモデルは,複数の画像およびビデオキャプションベンチマーク上で,オープンソースおよびクローズドソースSOTAモデルより優れていた。
人間の評価はさらに、事実の正しさと強く一致していることを確認する。
さらに、VCapはMLLMの知覚能力を改善し、タスクを一般化し、最高のN蒸留を超越し、RLVRに関する前提に挑戦する。
関連論文リスト
- BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning [4.441850776689605]
そこで本稿では, 実用意識の正しさ, 参照カバレッジ, 言語品質を協調的に最適化する, よりバランスのとれた強化学習フレームワークを提案する。
提案手法はキャプション品質を常に改善し, ピークゲインは+13.6 DCScore, +9.0 CaptionQA, +29.0 Cap である。
論文 参考訳(メタデータ) (2026-05-08T07:48:36Z) - RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning [15.881702574415861]
RubiCapは、ルーリックから微細でサンプル固有の報酬信号を導き出す、新しい強化学習フレームワークである。
ルビキャップは、CapArenaの最高勝利率、教師付き蒸留法、先行RL法、人為的アノテーション、GPT-4V拡張出力を達成している。
論文 参考訳(メタデータ) (2026-03-10T03:51:27Z) - CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning [23.289413412387223]
CCCaption: 専用微調整コーパスを備えた双方向逆強化学習フレームワークについて紹介する。
完全性のために、私たちは多様なLVLMを使用して、画像を一連のビジュアルクエリに切り離し、これらのクエリにもっと答えるキャプションに報いる。
正当性については,サブキャプションクエリの正当性を検証することによって,幻覚を含む字幕を罰する。
論文 参考訳(メタデータ) (2026-02-25T07:34:26Z) - CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning [90.19455861166745]
本稿では,キャプションの品質を再定義するトレーニングフレームワークであるCaptioning Reinforcement Learning (CapRL)を紹介する。
主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。
CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインのマージンは平均8.4%を超えた。
論文 参考訳(メタデータ) (2025-09-26T17:59:55Z) - ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。
本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。
450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-06-24T17:59:55Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。