論文の概要: VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning
- arxiv url: http://arxiv.org/abs/2604.09529v1
- Date: Fri, 10 Apr 2026 17:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.986945
- Title: VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning
- Title(参考訳): VLキャリブレーション:大型ビジョンランゲージモデル推論のための信頼性キャリブレーションの分離
- Authors: Wenyi Xiao, Xinchi Xu, Leilei Gan,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、強いマルチモーダル推論を実現するが、幻覚や誤った反応を高い確信でしばしば示す。
既存の言語化された信頼度校正法は、主にテキストのみのLLM向けに開発され、通常、バイナリ応答レベルの正しさを使用して単一の総合的な信頼度スコアを最適化する。
本稿では,信頼を視覚的・理性的な信頼に明確に分離する強化学習フレームワークであるVL-Calibrationを提案する。
- 参考スコア(独自算出の注目度): 5.887179947363831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) achieve strong multimodal reasoning but frequently exhibit hallucinations and incorrect responses with high certainty, which hinders their usage in high-stakes domains. Existing verbalized confidence calibration methods, largely developed for text-only LLMs, typically optimize a single holistic confidence score using binary answer-level correctness. This design is mismatched to LVLMs: an incorrect prediction may arise from perceptual failures or from reasoning errors given correct perception, and a single confidence conflates these sources while visual uncertainty is often dominated by language priors. To address these issues, we propose VL-Calibration, a reinforcement learning framework that explicitly decouples confidence into visual and reasoning confidence. To supervise visual confidence without ground-truth perception labels, we introduce an intrinsic visual certainty estimation that combines (i) visual grounding measured by KL-divergence under image perturbations and (ii) internal certainty measured by token entropy. We further propose token-level advantage reweighting to focus optimization on tokens based on visual certainty, suppressing ungrounded hallucinations while preserving valid perception. Experiments on thirteen benchmarks show that VL-Calibration effectively improves calibration while boosting visual reasoning accuracy, and it generalizes to out-of-distribution benchmarks across model scales and architectures.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は強いマルチモーダル推論を実現するが、幻覚や不正確な応答を高い確実性でしばしば示し、高い領域での使用を妨げている。
既存の言語化された信頼度校正法は、主にテキストのみのLLM向けに開発され、通常、バイナリ応答レベルの正しさを使用して単一の総合的な信頼度スコアを最適化する。
この設計はLVLMと誤解される: 誤った予測は知覚上の失敗や正しい認識による推論の誤りから生じ、単一の自信はこれらの情報源を混同し、視覚的不確実性はしばしば言語先行によって支配される。
これらの課題に対処するために,信頼性を視覚的および推論的信頼に明確に分離する強化学習フレームワークであるVL-Calibrationを提案する。
地味な認識ラベルを使わずに視覚的信頼を監督するために,本質的な視覚的確実性推定を導入する。
一 画像摂動下でのKL偏差による視覚的接地
(ii)トークンエントロピーによる内部確実性の測定
さらに,視覚的確実性に基づくトークンの最適化に焦点をあてるトークンレベルの優位性再重み付けを提案する。
13のベンチマークでの実験では、VL-Calibrationは視覚的推論精度を高めながら校正を効果的に改善し、モデルスケールとアーキテクチャをまたいだアウト・オブ・ディストリビューション・ベンチマークに一般化している。
関連論文リスト
- Identifying Influential N-grams in Confidence Calibration via Regression Analysis [53.95767806659635]
回帰法を適用することにより,言語表現が信頼とどのような関係があるかを明らかにする。
我々は,大言語モデル (LLM) が推論に関わる場合,過度に信頼されていることを示す。
性能低下を伴わずに過信表現を単純に抑えることで、信頼度校正が可能であることを明らかにした。
論文 参考訳(メタデータ) (2026-04-07T11:58:49Z) - Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models [8.630726904040781]
EVPV(Explicit Visual Premise Verification)は,ステップが依存する視覚的前提の信頼性を段階的に評価する,軽量な検証インターフェースである。
EVPVはステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上する。
論文 参考訳(メタデータ) (2026-03-17T08:40:26Z) - VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation [22.921677603408188]
LVLM(Large Vision-Language Models)はしばしば幻覚を呈し、現実世界のアプリケーションに安全な配置を制限している。
LVLM自己評価のための視覚対応不確実性定量化フレームワークVAUQを提案する。
VAUQは、モデルの出力が視覚的証拠に依存するかを明確に測定する。
論文 参考訳(メタデータ) (2026-02-24T16:11:14Z) - Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning [58.331709210563616]
サブトラクションによる思考は、信頼主導のコントラスト的デコーディングアプローチである。
低信頼トークンの小さなサブセットは、誤りの推論と不要な出力拡大に不当に寄与する。
信頼駆動型コントラストデコーディング(Confidence-Driven Contrastive Decoding)は,デコーディング中の低信頼トークンを検出し,それらの位置で介入する。
論文 参考訳(メタデータ) (2026-02-20T14:13:22Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。
VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文 参考訳(メタデータ) (2026-01-08T17:49:13Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。