論文の概要: The Art of Saying "Maybe": A Conformal Lens for Uncertainty Benchmarking in VLMs
- arxiv url: http://arxiv.org/abs/2509.13379v1
- Date: Tue, 16 Sep 2025 08:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.5776
- Title: The Art of Saying "Maybe": A Conformal Lens for Uncertainty Benchmarking in VLMs
- Title(参考訳): メイベ」を語る技術:VLMにおける不確実性ベンチマークのためのコンフォーマルレンズ
- Authors: Asif Azad, Mohammad Sadat Hossain, MD Sadik Hossain Shanto, M Saifur Rahman, Md Rizwan Pervez,
- Abstract要約: VLM(Vision-Language Models)は、科学的および推論タスクにおける複雑な視覚的理解において、顕著な進歩を遂げている。
3つの異なるスコアリング機能を持つ6つのマルチモーダルデータセットにわたる16の最先端のVLMを評価し、包括的不確実性ベンチマーク研究を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable progress in complex visual understanding across scientific and reasoning tasks. While performance benchmarking has advanced our understanding of these capabilities, the critical dimension of uncertainty quantification has received insufficient attention. Therefore, unlike prior conformal prediction studies that focused on limited settings, we conduct a comprehensive uncertainty benchmarking study, evaluating 16 state-of-the-art VLMs (open and closed-source) across 6 multimodal datasets with 3 distinct scoring functions. Our findings demonstrate that larger models consistently exhibit better uncertainty quantification; models that know more also know better what they don't know. More certain models achieve higher accuracy, while mathematical and reasoning tasks elicit poorer uncertainty performance across all models compared to other domains. This work establishes a foundation for reliable uncertainty evaluation in multimodal systems.
- Abstract(参考訳): VLM(Vision-Language Models)は、科学的および推論タスクにおける複雑な視覚的理解において、顕著な進歩を遂げている。
性能ベンチマークではこれらの能力の理解が進んでいるが、不確実性定量化の臨界次元は十分に注目されていない。
したがって、限定的な設定に焦点をあてた従来のコンフォメーション予測研究とは異なり、我々は3つのスコアリング機能を持つ6つのマルチモーダルデータセットに対して、16の最先端のVLM(オープンおよびクローズドソース)を評価する、包括的な不確実性ベンチマーク研究を行っている。
以上の結果から,より大きなモデルでは不確実性の定量化が常に向上していることが判明した。
より特定のモデルは高い精度を達成する一方、数学的および推論タスクは、他のドメインと比較して全てのモデルにおける不確実性性能を低下させる。
この研究は、マルチモーダルシステムにおける確実な不確実性評価の基礎を確立する。
関連論文リスト
- Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness [12.513874407270142]
我々は,Large Language Models (LLMs) と "thinking" と "non-thinking" の体系的比較を示す。
RewardBenchタスクの精度と計算効率(FLOP)を評価した。
以上の結果から,思考モデルの精度は10%程度向上し,オーバーヘッドは少なかった。
論文 参考訳(メタデータ) (2025-09-09T18:36:02Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation [51.19622266249408]
MultiTrust-XはMLLMの信頼性問題を評価、分析、緩和するためのベンチマークである。
分類に基づいて、MultiTrust-Xには32のタスクと28のキュレートデータセットが含まれている。
私たちの実験は、現在のモデルに重大な脆弱性を明らかにします。
論文 参考訳(メタデータ) (2025-08-21T09:00:01Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
大きな言語モデル(LLM)は印象的な能力を示しているが、その出力品質は相容れないままである。
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
我々の手法は、既存の不確実性推定方法より一貫して優れている。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty-Aware Evaluation for Vision-Language Models [0.0]
現在の評価手法は重要な要素である不確実性を見落としている。
精度の高いモデルも高い不確実性を持つ可能性があることを示す。
また, 実験結果から, モデルの不確かさと言語モデル部分との相関が明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T10:04:17Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。