論文の概要: VLM-UQBench: A Benchmark for Modality-Specific and Cross-Modality Uncertainties in Vision Language Models
- arxiv url: http://arxiv.org/abs/2602.09214v1
- Date: Mon, 09 Feb 2026 21:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.255891
- Title: VLM-UQBench: A Benchmark for Modality-Specific and Cross-Modality Uncertainties in Vision Language Models
- Title(参考訳): VLM-UQBench:視覚言語モデルにおけるモダリティ-特有およびクロスモダリティ不確かさのベンチマーク
- Authors: Chenyu Wang, Tianle Chen, H. M. Sabbir Ahmad, Kayhan Batmanghelich, Wenchao Li,
- Abstract要約: VLM-UQBenchは、視覚言語モデル(VLM)におけるモダリティ特化およびクロスモーダルデータ不確実性のベンチマークである。
VizWizデータセットから得られた600の現実世界のサンプルからなり、クリーン、イメージ、テキスト、およびクロスモーダルな不確実性サブセットにキュレーションされ、8つの視覚的、5つのテキスト、および3つのクロスモーダルな摂動を備えたスケーラブルな摂動パイプラインで構成されている。
- 参考スコア(独自算出の注目度): 12.180198973471645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty quantification (UQ) is vital for ensuring that vision-language models (VLMs) behave safely and reliably. A central challenge is to localize uncertainty to its source, determining whether it arises from the image, the text, or misalignment between the two. We introduce VLM-UQBench, a benchmark for modality-specific and cross-modal data uncertainty in VLMs, It consists of 600 real-world samples drawn from the VizWiz dataset, curated into clean, image-, text-, and cross-modal uncertainty subsets, and a scalable perturbation pipeline with 8 visual, 5 textual, and 3 cross-modal perturbations. We further propose two simple metrics that quantify the sensitivity of UQ scores to these perturbations and their correlation with hallucinations, and use them to evaluate a range of UQ methods across four VLMs and three datasets. Empirically, we find that: (i) existing UQ methods exhibit strong modality-specific specialization and substantial dependence on the underlying VLM, (ii) modality-specific uncertainty frequently co-occurs with hallucinations while current UQ scores provide only weak and inconsistent risk signals, and (iii) although UQ methods can rival reasoning-based chain-of-thought baselines on overt, group-level ambiguity, they largely fail to detect the subtle, instance-level ambiguity introduced by our perturbation pipeline. These results highlight a significant gap between current UQ practices and the fine-grained, modality-aware uncertainty required for reliable VLM deployment.
- Abstract(参考訳): 不確実性定量化(UQ)は、視覚言語モデル(VLM)が安全かつ確実に振舞うことを保証するために不可欠である。
中心的な課題は、そのソースに不確実性をローカライズし、それが画像、テキスト、あるいは両者の誤認識から生じるかどうかを判断することである。
VLM-UQBenchは,VizWizデータセットから得られた600個の実世界のサンプルからなり,クリーン,イメージ,テキスト,およびクロスモーダルな不確実性サブセットにキュレートされ,かつ8つの視覚的,5つのテキスト的,3つのクロスモーダルな摂動を伴うスケーラブルな摂動パイプラインで構成される。
さらに、これらの摂動に対するUQスコアの感度と幻覚との相関を定量化する2つの単純な指標を提案し、4つのVLMおよび3つのデータセットにわたるUQ手法の評価に使用する。
経験的に、私たちはそれを見つけました。
(i)既存のUQ法は、強いモダリティ特異的な特殊化と基礎となるVLMへの実質的依存を示す。
(II)モダリティ特異的不確実性はしばしば幻覚と共起する一方、現在のUQスコアは弱く一貫性のないリスク信号のみを提供する。
(iii)UQ手法は、過剰なグループレベルの曖昧さに基づく推論に基づくチェーン・オブ・ソートに匹敵するが、摂動パイプラインによって導入された微妙なインスタンスレベルの曖昧さをほとんど検出できない。
これらの結果は、現在のUQプラクティスと、信頼性の高いVLMデプロイメントに必要な細粒度でモダリティを意識した不確実性との間に大きなギャップを浮き彫りにしている。
関連論文リスト
- FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering [14.550872089352943]
FaithSCANは視覚言語モデルの豊富な内部信号を利用して幻覚を検出する軽量ネットワークである。
本稿では,LLM-as-a-JudgeパラダイムをVQA幻覚に拡張し,モデル依存型監視信号の自動生成のための低コスト戦略を提案する。
深い分析により、幻覚は視覚知覚、相互モーダル推論、言語復号における系統的な内部状態の変化から生じることが示された。
論文 参考訳(メタデータ) (2026-01-01T09:19:39Z) - The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering [29.4458902836278]
本稿では,与えられたモデルの予測分布と未知の真の分布との相互エントロピーとして定義されたタスクに依存しないトークンレベルの不確実性尺度を提案する。
我々は不確実性の上限を導出し、与えられたモデルの隠された表現において意味的特徴ギャップとして解釈できることを示す。
この一般的なフレームワークを文脈的QAタスクに適用し、文脈信頼、文脈理解、誠実さの3つの特徴がこのギャップを近似していると仮定する。
論文 参考訳(メタデータ) (2025-10-03T02:09:25Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
目に見えないデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事です。
私たちは、現在の落とし穴を克服する3つの重要な要件を中心に、SURE-VQAと呼ばれる新しいフレームワークを紹介します。
論文 参考訳(メタデータ) (2024-11-29T13:22:52Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。