論文の概要: Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2602.05535v1
- Date: Thu, 05 Feb 2026 10:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.893464
- Title: Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification
- Title(参考訳): 証拠不確実性定量化による大規模視線モデルの不確実性の検出
- Authors: Tao Huang, Rui Wang, Xiaofei Liu, Yi Qin, Li Duan, Liping Jing,
- Abstract要約: 大規模視覚言語モデル(LVLM)は多モーダル理解と生成において大きな進歩を見せている。
彼らはしばしば、事実幻覚や危険な指示など、信頼できない、あるいは有害な内容を生み出す。
Evidential Uncertainty Quantification (EUQ)は、LVLMの誤動作を効果的に検出するための情報競合と無知の両方をキャプチャする。
- 参考スコア(独自算出の注目度): 27.02252748004729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have shown substantial advances in multimodal understanding and generation. However, when presented with incompetent or adversarial inputs, they frequently produce unreliable or even harmful content, such as fact hallucinations or dangerous instructions. This misalignment with human expectations, referred to as \emph{misbehaviors} of LVLMs, raises serious concerns for deployment in critical applications. These misbehaviors are found to stem from epistemic uncertainty, specifically either conflicting internal knowledge or the absence of supporting information. However, existing uncertainty quantification methods, which typically capture only overall epistemic uncertainty, have shown limited effectiveness in identifying such issues. To address this gap, we propose Evidential Uncertainty Quantification (EUQ), a fine-grained method that captures both information conflict and ignorance for effective detection of LVLM misbehaviors. In particular, we interpret features from the model output head as either supporting (positive) or opposing (negative) evidence. Leveraging Evidence Theory, we model and aggregate this evidence to quantify internal conflict and knowledge gaps within a single forward pass. We extensively evaluate our method across four categories of misbehavior, including hallucinations, jailbreaks, adversarial vulnerabilities, and out-of-distribution (OOD) failures, using state-of-the-art LVLMs, and find that EUQ consistently outperforms strong baselines, showing that hallucinations correspond to high internal conflict and OOD failures to high ignorance. Furthermore, layer-wise evidential uncertainty dynamics analysis helps interpret the evolution of internal representations from a new perspective. The source code is available at https://github.com/HT86159/EUQ.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は多モーダル理解と生成において大きな進歩を見せている。
しかし、無能または敵対的な入力を提示すると、事実幻覚や危険な指示など、信頼できない、あるいは有害な内容がしばしば発生する。
このLVLMの「emph{misbehaviors}」と呼ばれる人間の期待との不一致は、クリティカルなアプリケーションへの展開に対する深刻な懸念を引き起こす。
これらの誤動作は、特に内的知識の矛盾や支援情報の欠如など、てんかんの不確実性に起因する。
しかし、既存の不確実性定量法は、一般的に総合的な疫学的不確実性のみを捉えるものであり、そのような問題を同定する上での有効性は限られている。
このギャップに対処するために、LVLMの誤動作を効果的に検出するために、情報衝突と無知の両方を捕捉するきめ細かい方法であるEvidential Uncertainity Quantification (EUQ)を提案する。
特に、モデル出力ヘッドの特徴を(正の)証拠を支持するか、反対の(負の)証拠として解釈する。
エビデンス理論を活用して、我々はこの証拠をモデル化し集約し、単一の前方パス内の内部の紛争と知識ギャップを定量化する。
本手法は, 幻覚, 脱獄, 敵対的脆弱性, アウト・オブ・ディストリビューション (OOD) 障害の4つのカテゴリにおいて, 最先端のLVLMを用いて広範に評価し, EUQ は強いベースラインを一貫して上回り, 幻覚は高い内部対立と OOD の失敗を高い無知に反映していることを示した。
さらに、層単位での明らかな不確実性力学解析は、内部表現の進化を新しい視点から解釈するのに役立つ。
ソースコードはhttps://github.com/HT86159/EUQで公開されている。
関連論文リスト
- HaluNet: Multi-Granular Uncertainty Modeling for Efficient Hallucination Detection in LLM Question Answering [12.183015986299438]
マルチグラニュラートークンレベルの不確実性を統合する軽量でトレーニング可能なニューラルネットワークフレームワークである textbfHaluNet を提案する。
SQuAD、TriviaQA、Natural Questionsの実験は、HaluNetが強力な検出性能と良好な計算効率を提供することを示している。
論文 参考訳(メタデータ) (2025-12-31T02:03:10Z) - Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs [72.8370367403852]
VLM(Vision-Language Models)は、視覚的質問応答などのマルチモーダルなタスクにおいて強力な結果を得るが、正しい視覚的証拠が存在する場合でも失敗する。
浅層は主にテキストに焦点が当てられているのに対し、深層はわずかながら確実に局所化されたエビデンス領域に寄与していることを示す。
我々は,選択的注意に基づくマスキングによる深層エビデンス領域の強調を行う推論時間介入を導入する。
論文 参考訳(メタデータ) (2025-10-20T17:31:09Z) - Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs [13.982395477368396]
大規模言語モデル (LLM) は、膨大な事実知識を符号化することで、様々なタスクにまたがる顕著な性能を示した。
彼らはまだ幻覚を起こす傾向があり、誤った情報や誤解を招く情報を生み出し、しばしば高い不確実性を伴う。
LLMにおける外部不確実性と内部不確実性の両方を定量化する新しい尺度であるSemantic Volumeを紹介する。
論文 参考訳(メタデータ) (2025-02-28T17:09:08Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。