Fugu-MT 論文翻訳(概要): VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

論文の概要: VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

arxiv url: http://arxiv.org/abs/2602.21054v1
Date: Tue, 24 Feb 2026 16:11:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.834436
Title: VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation
Title（参考訳）: VAUQ:LVLM自己評価のための視覚認識不確実性定量化
Authors: Seongheon Park, Changdae Oh, Hyeong Kyu Choi, Xuefeng Du, Sharon Li,
Abstract要約: LVLM(Large Vision-Language Models)はしばしば幻覚を呈し、現実世界のアプリケーションに安全な配置を制限している。 LVLM自己評価のための視覚対応不確実性定量化フレームワークVAUQを提案する。 VAUQは、モデルの出力が視覚的証拠に依存するかを明確に測定する。
参考スコア（独自算出の注目度）: 22.921677603408188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (LVLMs) frequently hallucinate, limiting their safe deployment in real-world applications. Existing LLM self-evaluation methods rely on a model's ability to estimate the correctness of its own outputs, which can improve deployment reliability; however, they depend heavily on language priors and are therefore ill-suited for evaluating vision-conditioned predictions. We propose VAUQ, a vision-aware uncertainty quantification framework for LVLM self-evaluation that explicitly measures how strongly a model's output depends on visual evidence. VAUQ introduces the Image-Information Score (IS), which captures the reduction in predictive uncertainty attributable to visual input, and an unsupervised core-region masking strategy that amplifies the influence of salient regions. Combining predictive entropy with this core-masked IS yields a training-free scoring function that reliably reflects answer correctness. Comprehensive experiments show that VAUQ consistently outperforms existing self-evaluation methods across multiple datasets.
Abstract（参考訳）: LVLM(Large Vision-Language Models)はしばしば幻覚を呈し、現実世界のアプリケーションに安全な配置を制限している。既存のLCM自己評価手法は、デプロイメントの信頼性を向上させることができる独自の出力の正しさを推定するモデルの能力に依存している。本稿では,LVLM自己評価のための視覚認識不確実性定量化フレームワークVAUQを提案する。 VAUQは、視覚入力に起因する予測の不確実性の低減を捉える画像情報スコア(IS)と、正常領域の影響を増幅する教師なしコア領域マスキング戦略を導入する。このコアメイクISと予測エントロピーを組み合わせることで、答えの正しさを確実に反映するトレーニング不要スコアリング関数が得られる。総合的な実験により、VAUQは複数のデータセットで既存の自己評価方法より一貫して優れていることが示された。

関連論文リスト

ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文参考訳（メタデータ） (2026-01-23T11:31:07Z)
HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models [42.91752946934796]
不確実性推定は、モデル出力の信頼性の定量化において中心的な役割を果たす。既存の確率に基づくUEアプローチの多くは、単一不確実性スコアにトークン確率を集約する出力確率分布に依存している。本稿では,モデルアクティベーションにおける融合マルチモーダル情報とVLMの出力分布を協調的に活用する新しいUEフレームワークHARMONYを提案する。
論文参考訳（メタデータ） (2025-10-25T05:45:18Z)
Enhancing Uncertainty Estimation in LLMs with Expectation of Aggregated Internal Belief [6.1929548590367505]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおいて顕著な成功を収めてきたが、しばしば過剰な自信を示し、妥当で不正確な答えを生み出している。この過信は、信頼性の高い不確実性推定と安全なデプロイメントに重大な課題をもたらす。本研究では,LLMの内部隠蔽状態を利用した自己評価に基づくキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2025-09-01T15:50:10Z)
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文参考訳（メタデータ） (2025-05-26T17:16:36Z)
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-04-24T15:39:46Z)
Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文参考訳（メタデータ） (2024-12-08T18:16:13Z)
Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,大規模言語モデルによって生成された複数の出力の自己整合性に基づいて,応答正当性を評価するための補助学習モデルを提案する。提案手法は,複数応答間の一致を表現するために整合性グラフを構築し,グラフニューラルネットワーク(GNN)を用いて各応答の正しさを推定する。
論文参考訳（メタデータ） (2024-11-03T20:36:44Z)
Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。