論文の概要: Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume
- arxiv url: http://arxiv.org/abs/2602.24195v1
- Date: Fri, 27 Feb 2026 17:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.535647
- Title: Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume
- Title(参考訳): 不整合調整セマンティックボリュームを持つ多モーダル大言語モデルの不確実性定量化
- Authors: Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin, Bryan Kian Hsiang Low,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)のためのトレーニング不要不確実性定量化フレームワークUMPIREを紹介する。
UMPIREは、与えられたタスクインスタンスに対するサンプルMLLM応答の不整合調整セマンティックボリュームを計算する。
UMPIREは、画像、音声、ビデオテキストのベンチマークにおいて、エラー検出と不確実性校正において、基準値よりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 45.38219855706969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their capabilities, Multimodal Large Language Models (MLLMs) may produce plausible but erroneous outputs, hindering reliable deployment. Accurate uncertainty metrics could enable escalation of unreliable queries to human experts or larger models for improved performance. However, existing uncertainty metrics have practical constraints, such as being designed only for specific modalities, reliant on external tools, or computationally expensive. We introduce UMPIRE, a training-free uncertainty quantification framework for MLLMs that works efficiently across various input and output modalities without external tools, relying only on the models' own internal modality features. UMPIRE computes the incoherence-adjusted semantic volume of sampled MLLM responses for a given task instance, effectively capturing both the global semantic diversity of samples and the local incoherence of responses based on internal model confidence. We propose uncertainty desiderata for MLLMs and provide theoretical analysis motivating UMPIRE's design. Extensive experiments show that UMPIRE consistently outperforms baseline metrics in error detection and uncertainty calibration across image, audio, and video-text benchmarks, including adversarial and out-of-distribution settings. We also demonstrate UMPIRE's generalization to non-text output tasks, including image and audio generation.
- Abstract(参考訳): これらの機能にもかかわらず、MLLM(Multimodal Large Language Models)は、信頼性の高いデプロイメントを妨げる、可塑性だが誤った出力を生成する可能性がある。
正確な不確実性メトリクスは、信頼性の低いクエリを人間の専門家やより大きなモデルにエスカレーションすることで、パフォーマンスを向上させることができる。
しかし、既存の不確実性指標には、特定のモダリティのためにのみ設計されるか、外部ツールに依存しているか、計算コストなど、実用的な制約がある。
本稿では,MLLMのトレーニング不要不確実性定量化フレームワークであるUMPIREを紹介する。
UMPIREは、与えられたタスクインスタンスに対するサンプルMLLM応答の不整合調整セマンティックボリュームを計算し、内部モデル信頼度に基づいて、サンプルのグローバルなセマンティック多様性と応答の局所的不整合の両方を効果的にキャプチャする。
MLLMのための不確実性デシラタを提案し,UMPIREの設計を動機付ける理論的解析を行う。
UMPIREは、画像、音声、ビデオテキストのベンチマークにおける誤り検出と不確かさのキャリブレーションにおいて、相変わらず基準値を上回っている。
また、UMPIREによる画像や音声生成を含む非テキスト出力タスクの一般化を実証する。
関連論文リスト
- Task-Awareness Improves LLM Generations and Uncertainty [48.857040212979484]
ベイズ最適応答は、ビームサーチのような標準的な復号法より一貫して優れている。
我々の決定論的なフレームワークは、潜在応答構造を持つあらゆる問題に適用できる。
論文 参考訳(メタデータ) (2026-01-29T10:16:23Z) - FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs [20.08099668437471]
マルチモーダル大言語モデル(MLLM)の生成した予測は、選択的な予測を可能にし、ユーザの信頼性を向上させることができる。
MLLMのマルチモーダル入力サンプリング技術であるFESTA(Functional Equivalent Smpling for Trust Assessment)を提案する。
FESTAは等価かつ相補的な入力サンプリングに基づいて不確実性尺度を生成する。
論文 参考訳(メタデータ) (2025-09-20T11:50:22Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework [23.42251949130555]
マルチモーダル大言語モデル (MLLM) は視覚的質問応答 (VQA) のようなタスクにおいて有望であることを示す
最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。
本稿では,学習自由なマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence (SRICE)を提案する。
論文 参考訳(メタデータ) (2025-03-11T11:18:53Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。
本稿では,これらの課題に対処する新しい枠組みを提案する。
意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文 参考訳(メタデータ) (2024-05-22T17:13:49Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。