論文の概要: ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison
- arxiv url: http://arxiv.org/abs/2605.20278v2
- Date: Sun, 24 May 2026 12:22:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.765289
- Title: ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison
- Title(参考訳): ClaimDiff-RL:視覚的クレーム比較による細粒字字字幕強化学習
- Authors: Tianle Li, Xuyang Shen, Yan Ma, Rongxin Guo, Shaoxiang Chen, Jiacheng Chen, Haochen Wang, Hongyang Tang, Yucong Zhou, Yu Cheng,
- Abstract要約: ClaimDiff-RLは、参照条件付き原子クレーム差分をキャプションRLの報酬単位として使用するフレームワークである。
ClaimDiff-RLは幻覚のバランスを改善し、一般的な能力を保ち、いくつかの細粒度キャパビリティー次元のGemini-3-Pro-Previewを超えている。
- 参考スコア(独自算出の注目度): 38.42736245144838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form image captioning exposes a reward granularity problem in RL: captions are judged as whole sequences, while the important errors occur at the level of individual visual claims. A good dense caption should be both faithful and informative, avoiding hallucination without omitting salient details. Yet pairwise preferences, reference-based metrics, and holistic scalar rewards compress these local errors into a single sequence-level signal, obscuring the tradeoff between factuality and coverage. We introduce ClaimDiff-RL, a framework that uses reference-conditioned atomic claim differences as the reward unit for caption RL. Given an image, an actor caption, and a reference caption, a multimodal judge enumerates visually grounded differences, verifies each difference against the image, assigns open-vocabulary error types and severity levels, and produces per-difference statistics for reward composition. This makes hallucinated claims and omitted salient facts separately measurable and tunable. Experiments show that holistic scalar rewards can reduce hallucination by increasing missing facts, while ClaimDiff-RL exposes this faithfulness and coverage tradeoff and enables more balanced operating points. On a 160-image human-labeled diagnostic benchmark, public captioning benchmarks, and VQA benchmarks, ClaimDiff-RL improves the hallucination--missing-fact balance, preserves general capability, and even surpasses Gemini-3-Pro-Preview on several fine-grained Capability dimensions such as object counting, spatial relations, and scene recognition. These results suggest that typed, verifiable claim differences are an effective reward unit for fine-grained and diagnosable caption RL.
- Abstract(参考訳): ロングフォーム画像キャプションは、RLにおける報酬粒度の問題を露呈する:キャプションはシーケンス全体として判断されるが、重要なエラーは個々の視覚的クレームのレベルで発生する。
高い濃度のキャプションは忠実かつ情報的であり、良心的な詳細を省くことなく幻覚を避けるべきである。
しかし、ペアワイズな選好、参照ベースのメトリクス、および全体論的スカラー報酬は、これらのローカルエラーを単一のシーケンスレベルの信号に圧縮し、事実とカバレッジのトレードオフを無視する。
本稿では、参照条件付き原子クレーム差分を用いたフレームワークであるCrimDiff-RLについて、キャプションRLの報酬単位として紹介する。
画像、アクターキャプション、参照キャプションが与えられた場合、マルチモーダルジャッジは、視覚的に根拠付けられた差分を列挙し、画像に対して各差分を検証し、開語彙エラータイプと重大度レベルを割り当て、報酬合成のための差分統計を生成する。
これにより、幻覚的な主張と、別々に測定可能で学習可能とされていた敬意的な事実が省略される。
実験により、全体的なスカラー報酬は、欠落した事実を増大させることで幻覚を減少させ、一方、CrimDiff-RLは、この忠実さとカバレッジのトレードオフを露呈し、よりバランスの取れた操作ポイントを可能にしている。
160イメージの人間ラベル付き診断ベンチマーク、公開キャプションベンチマーク、VQAベンチマークでは、ClaymDiff-RLは幻覚-消耗バランスを改善し、一般的な能力を保ち、オブジェクトカウント、空間関係、シーン認識など、いくつかの細かい機能ディメンジョンに関するGemini-3-Pro-Previewを越えている。
以上の結果から, タイプド, 検証可能なクレーム差は, 細粒度, 診断可能なキャプションRLに有効な報奨単位であることが示唆された。
関連論文リスト
- Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation [68.41785694664011]
機能ステアリングのためのLate-Then-Sparsify(LTS-FS)と呼ばれるプラグアンドプレイフレームワークを提案する。
各層の幻覚関係に応じて操舵強度を制御する。
我々の枠組みは、強い性能を維持しながら幻覚を効果的に緩和する。
論文 参考訳(メタデータ) (2026-03-17T09:16:50Z) - HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning [27.133240420463807]
字幕中の幻覚検出(HalDec)は、画像内容とテキストを正しく整列する視覚言語モデルの能力を評価する。
HalDec-Benchは、幻覚検出器を原理的かつ解釈可能な方法で評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2026-03-16T13:21:55Z) - DHI: Leveraging Diverse Hallucination Induction for Enhanced Contrastive Factuality Control in Large Language Models [33.2779808039684]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる不正確な情報や偽造情報を生成する。
DHI(Diverse Hallucination induction)は,事前の注釈付きデータに頼らずにより広い範囲の幻覚を生成する新しい学習フレームワークである。
DHIは、複数の幻覚ベンチマークにまたがる他のコントラストなデコーディングベースのアプローチよりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-01-03T10:55:41Z) - CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning [90.19455861166745]
本稿では,キャプションの品質を再定義するトレーニングフレームワークであるCaptioning Reinforcement Learning (CapRL)を紹介する。
主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。
CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインのマージンは平均8.4%を超えた。
論文 参考訳(メタデータ) (2025-09-26T17:59:55Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Mitigating Open-Vocabulary Caption Hallucinations [33.960405731583656]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
我々のフレームワークには、生成基盤モデルを利用してオープン語彙オブジェクト幻覚を評価する新しいベンチマークであるOpenCHAIRが含まれている。
閉じたオブジェクトリストを使わずにオープン語彙の幻覚を緩和するために,MOCHaを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。