Fugu-MT 論文翻訳(概要): Grounded or Guessing? LVLM Confidence Estimation via Blind-Image Contrastive Ranking

論文の概要: Grounded or Guessing? LVLM Confidence Estimation via Blind-Image Contrastive Ranking

arxiv url: http://arxiv.org/abs/2605.10893v2
Date: Fri, 15 May 2026 03:21:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:25.948613
Title: Grounded or Guessing? LVLM Confidence Estimation via Blind-Image Contrastive Ranking
Title（参考訳）: 接地か誘導か? ブラインド画像コントラストランキングによるLVLM信頼度推定
Authors: Reza Khanmohammadi, Erfan Miahi, Simerjot Kaur, Charese H. Smiley, Ivan Brugere, Kundan Thind, Mohammad M. Ghassemi,
Abstract要約: 本稿では,モデルに依存しない信頼度推定フレームワークBICR(Blind-Image Contrastive Ranking)を紹介する。ライトウェイトプローブは、実像隠蔽状態に基づいてトレーニングされ、ブラックアウトビューに対する高い信頼度を罰するランキング損失によって正規化される。 5つの現代のLVLMと7つのベースラインで評価され、視覚的質問応答、オブジェクト検出、医用画像、財務文書理解に関するベンチマークが実施された。
参考スコア（独自算出の注目度）: 7.845652284569666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large vision-language models suffer from visual ungroundedness: they can produce a fluent, confident, and even correct response driven entirely by language priors, with the image contributing nothing to the prediction. Existing confidence estimation methods cannot detect this, as they observe model behavior under normal inference with no mechanism to determine whether a prediction was shaped by the image or by text alone. We introduce BICR (Blind-Image Contrastive Ranking), a model-agnostic confidence estimation framework that makes this contrast explicit during training by extracting hidden states from a frozen LVLM twice: once with the real image-question pair, and once with the image blacked out while the question is held fixed. A lightweight probe is trained on the real-image hidden state and regularized by a ranking loss that penalizes higher confidence on the blacked-out view, teaching it to treat visual grounding as a signal of reliability at zero additional inference cost. Evaluated across five modern LVLMs and seven baselines on a benchmark covering visual question answering, object hallucination detection, medical imaging, and financial document understanding, BICR achieves the best cross-LVLM average on both calibration and discrimination simultaneously, with statistically significant discrimination gains robust to cluster-aware analysis at 4-18x fewer parameters than the strongest probing baseline.
Abstract（参考訳）: 大きな視覚言語モデルは、視覚的アングラウンドネスに悩まされる。それらは、言語先行によって完全に駆動される、流動的で自信があり、正しい応答を生み出すことができ、画像は予測に何の役にも立たない。既存の信頼度推定手法では、画像によって予測が形作られたか、あるいはテキストのみによって形成されたかを決定するメカニズムのない、通常の推論下でのモデル動作を観察するため、これを検出できない。 BICR (Blind-Image Contrastive Ranking) は,凍結したLVLMから隠れた状態を2回抽出することで,このコントラストを明示するモデル非依存的信頼度推定フレームワークである。ライトウェイトプローブは、実像隠蔽状態に基づいて訓練され、ブラックアウトビューに対する高い信頼度を罰するランキング損失によって正規化され、視覚的グラウンドリングを、追加の推論コストゼロで信頼性の信号として扱うように教える。 BICRは、視覚的質問応答、物体幻覚検出、医用画像、ファイナンシャル文書理解を網羅したベンチマークで、5つの現代のLVLMと7つのベースラインで評価され、キャリブレーションと識別の両方において最高のLVLM平均を同時に達成し、統計学的に有意な識別は、最強のプローブベースラインの4-18倍のパラメータでクラスタ認識分析に頑健である。

関連論文リスト

Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文参考訳（メタデータ） (2026-05-06T13:08:12Z)
VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning [5.887179947363831]
大規模視覚言語モデル(LVLM)は、強いマルチモーダル推論を実現するが、幻覚や誤った反応を高い確信でしばしば示す。既存の言語化された信頼度校正法は、主にテキストのみのLLM向けに開発され、通常、バイナリ応答レベルの正しさを使用して単一の総合的な信頼度スコアを最適化する。本稿では,信頼を視覚的・理性的な信頼に明確に分離する強化学習フレームワークであるVL-Calibrationを提案する。
論文参考訳（メタデータ） (2026-04-10T17:47:19Z)
VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation [22.921677603408188]
LVLM(Large Vision-Language Models)はしばしば幻覚を呈し、現実世界のアプリケーションに安全な配置を制限している。 LVLM自己評価のための視覚対応不確実性定量化フレームワークVAUQを提案する。 VAUQは、モデルの出力が視覚的証拠に依存するかを明確に測定する。
論文参考訳（メタデータ） (2026-02-24T16:11:14Z)
Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。 VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文参考訳（メタデータ） (2026-01-08T17:49:13Z)
Journey Before Destination: On the importance of Visual Faithfulness in Slow Thinking [11.763473690046721]
推論の拡張された視覚言語モデルは、より大きな能力と透明性を約束する明確な思考の連鎖を生成する。モデルは、視覚的に不誠実な中間段階によって正しい答えに達するか、あるいは最終的な予測において、合理的に失敗する。本稿では, 推論連鎖の知覚段階が画像中に存在するか否かに着目し, 推論鎖の視覚的忠実度を評価次元として紹介する。
論文参考訳（メタデータ） (2025-12-13T07:04:42Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文参考訳（メタデータ） (2025-04-21T04:01:22Z)
Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning [67.82016092549284]
本稿では,選択型視覚言語システムの過剰保持を低減するための推論時アルゴリズムReCoVERRを紹介する。 ReCoVERRは、予測のための追加の証拠を提供する画像の中に、関連する手がかりを見つけようとする。
論文参考訳（メタデータ） (2024-02-23T21:16:52Z)
Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2023-08-20T16:27:17Z)
Provable Guarantees for Self-Supervised Deep Learning with Spectral Contrastive Loss [72.62029620566925]
自己教師型学習の最近の研究は、対照的な学習パラダイムを頼りに、最先端の技術の進歩を遂げている。我々の研究は、正の対の条件的独立性を仮定することなく、対照的な学習を分析する。本稿では,人口増分グラフ上でスペクトル分解を行う損失を提案し,コントラスト学習目的として簡潔に記述することができる。
論文参考訳（メタデータ） (2021-06-08T07:41:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。