論文の概要: VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding
- arxiv url: http://arxiv.org/abs/2603.07071v2
- Date: Tue, 10 Mar 2026 09:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.02203
- Title: VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding
- Title(参考訳): VirtueBench: 長いビデオ理解における不確実性の下での信頼性の評価
- Authors: Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang,
- Abstract要約: 近年の視覚言語モデル (VLM) は多モーダル理解タスクにおいて顕著な進歩を遂げている。
フレーム入力が限られているため、質問に答えるために必要なキーフレームがモデルの入力から欠落している可能性がある。
我々は、不確実性の下でモデルの信頼性を評価するために明示的に設計されたベンチマークであるVrtueBenchを紹介する。
- 参考スコア(独自算出の注目度): 8.084445007949283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language Models (VLMs) have made remarkable progress in multimodal understanding tasks, yet their evaluation on long video understanding remains unreliable. Due to limited frame inputs, key frames necessary for answering the question may be missing from the model's input. However, models that truthfully refuse to answer under such uncertainty are marked as incorrect, while those that guess may coincidentally produce the correct answer and thus obtain deceptively higher accuracy, leading to misleading evaluation results and encouraging models to guess rather than respond honestly. To address this issue, we introduce VirtueBench, a benchmark explicitly designed to assess model trustworthiness under uncertainty. VirtueBench constructs multiple frame-sampling levels for each video and provides ground truths that distinguish between answerable and unanswerable cases. Evaluations on 25 open-source and commercial VLMs reveal distinct refusal behaviors across different model families, with refusal accuracy ranging from over 70% in the best models to nearly 0% in the worst. Moreover, most models exhibit a substantial drop in refusal when the prompt does not explicitly require them to do so. These findings highlight the need for developing trustworthy VLMs for multimodal understanding, guided by benchmarks and leaderboards that emphasize reliability and trustworthiness.
- Abstract(参考訳): 近年の視覚言語モデル (VLM) は, マルチモーダル理解タスクにおいて顕著な進歩を遂げている。
フレーム入力が限られているため、質問に答えるために必要なキーフレームがモデルの入力から欠落している可能性がある。
しかし、そのような不確実性の下で真に答えることを拒否したモデルは誤記であり、推測したモデルは偶然に正解を導き、従って高い精度が得られるため、評価結果を誤解させ、モデルが正直に答えるよりも推測を奨励する。
この問題に対処するために、不確実性の下でモデルの信頼性を評価するために明示的に設計されたベンチマークであるVrtueBenchを紹介します。
VirtueBenchは、各ビデオに対して複数のフレームサンプリングレベルを構築し、回答可能なケースと解決不可能なケースを区別する基礎的な真実を提供する。
25のオープンソースおよび商用VLMの評価では、異なるモデルファミリ間で異なる拒絶行動を示し、最高のモデルでは70%以上から最悪のモデルでは0%近くまで精度が低下した。
さらに、ほとんどのモデルでは、プロンプトが明示的にそれを要求しない場合、拒絶が大幅に減少する。
これらの知見は、信頼性と信頼性を強調するベンチマークやリーダーボードによって導かれるマルチモーダル理解のための信頼性の高いVLMの開発の必要性を強調している。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Measuring Epistemic Humility in Multimodal Large Language Models [17.490955813494693]
HumbleBench は,MLLM が正解ではないが誤解を拒否する能力を評価するために設計された,新しい幻覚ベンチマークである。
我々は、微粒なシーングラフアノテーションを利用して、地中構造体と関係を抽出し、GPT-4-Turboに多重選択質問を生成する。
HumbleBenchは、現在の評価スイートにおける重要なギャップを埋め、安全クリティカルな設定におけるMLLMの信頼性をより現実的に測定する。
論文 参考訳(メタデータ) (2025-09-11T17:54:00Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - Are vision language models robust to uncertain inputs? [5.249651874118556]
より新しい視覚言語モデルでは、従来のモデルに比べて頑健性が向上したが、それでも厳密な指示に従う傾向にあることを示す。
ImageNetのような自然なイメージでは、パイプラインの変更なしにこの制限を克服することができる。
モデルの内部不確実性を明らかにするために,キャプションの多様性に基づく新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-17T03:16:49Z) - Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。
我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。
Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T01:48:13Z) - Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty [47.95943057892318]
ブラックボックスLSMの不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。
本研究では,不確実性推定にマルチエージェント相互作用を用いた新しい理論的基礎手法であるDiverseAgentEntropyを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Uncertainty-Aware Evaluation for Vision-Language Models [0.0]
現在の評価手法は重要な要素である不確実性を見落としている。
精度の高いモデルも高い不確実性を持つ可能性があることを示す。
また, 実験結果から, モデルの不確かさと言語モデル部分との相関が明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T10:04:17Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。