論文の概要: Visual hallucination detection in large vision-language models via evidential conflict
- arxiv url: http://arxiv.org/abs/2506.19513v1
- Date: Tue, 24 Jun 2025 11:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.602053
- Title: Visual hallucination detection in large vision-language models via evidential conflict
- Title(参考訳): 顕在的衝突による視覚言語モデルにおける視覚幻覚検出
- Authors: Tao Huang, Zhekun Liu, Rui Wang, Yang Zhang, Liping Jing,
- Abstract要約: Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
- 参考スコア(独自算出の注目度): 24.465497252040294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable multimodal capabilities of Large Vision-Language Models (LVLMs), discrepancies often occur between visual inputs and textual outputs--a phenomenon we term visual hallucination. This critical reliability gap poses substantial risks in safety-critical Artificial Intelligence (AI) applications, necessitating a comprehensive evaluation benchmark and effective detection methods. Firstly, we observe that existing visual-centric hallucination benchmarks mainly assess LVLMs from a perception perspective, overlooking hallucinations arising from advanced reasoning capabilities. We develop the Perception-Reasoning Evaluation Hallucination (PRE-HAL) dataset, which enables the systematic evaluation of both perception and reasoning capabilities of LVLMs across multiple visual semantics, such as instances, scenes, and relations. Comprehensive evaluation with this new benchmark exposed more visual vulnerabilities, particularly in the more challenging task of relation reasoning. To address this issue, we propose, to the best of our knowledge, the first Dempster-Shafer theory (DST)-based visual hallucination detection method for LVLMs through uncertainty estimation. This method aims to efficiently capture the degree of conflict in high-level features at the model inference phase. Specifically, our approach employs simple mass functions to mitigate the computational complexity of evidence combination on power sets. We conduct an extensive evaluation of state-of-the-art LVLMs, LLaVA-v1.5, mPLUG-Owl2 and mPLUG-Owl3, with the new PRE-HAL benchmark. Experimental results indicate that our method outperforms five baseline uncertainty metrics, achieving average AUROC improvements of 4%, 10%, and 7% across three LVLMs. Our code is available at https://github.com/HT86159/Evidential-Conflict.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の顕著なマルチモーダル機能にもかかわらず、視覚入力とテキスト出力の間にはしばしば相違が生じます。
この重要な信頼性ギャップは、安全クリティカル人工知能(AI)アプリケーションに重大なリスクをもたらし、包括的な評価ベンチマークと効果的な検出方法を必要とする。
まず,従来の視覚中心幻覚ベンチマークでは,先進的推論能力による幻覚を見越して,知覚的視点からLVLMを主に評価している。
PRE-HAL(Perception-Reasoning Evaluation Hallucination)データセットを開発し,LVLMの知覚と推論能力を複数の視覚的意味論(例,シーン,関係など)にわたって体系的に評価する。
この新しいベンチマークによる全体的な評価は、特に関係推論のより困難なタスクにおいて、より視覚的な脆弱性を明らかにした。
この問題に対処するため,我々は,不確実性推定によるLVLMに対する最初のDSTに基づく視覚幻覚検出法を提案する。
本手法は,モデル推論フェーズにおける高次特徴の競合度を効率的に把握することを目的としている。
具体的には、パワーセット上のエビデンスの組み合わせの計算複雑性を軽減するために、単純な質量関数を用いる。
我々は,最新のLVLMであるLLaVA-v1.5,mPLUG-Owl2,mPLUG-Owl3を,新しいPre-HALベンチマークを用いて広範囲に評価する。
実験結果から,本手法は5つのベースライン不確実性指標より優れ,平均AUROC改善率は4%,10%,7%であった。
私たちのコードはhttps://github.com/HT86159/Evidential-Conflict.comで公開されています。
関連論文リスト
- SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。
VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。
GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Reference-free Hallucination Detection for Large Vision-Language Models [19.36348897433261]
大規模視覚言語モデル(LVLM)は近年大きな進歩を遂げている。
LVLMは、言語理解、質問応答、視覚入力の会話において優れた能力を示す。
彼らは幻覚を起こす傾向がある。
LVLMの幻覚を評価するためにいくつかの手法が提案されているが、そのほとんどは参照ベースであり、外部ツールに依存している。
論文 参考訳(メタデータ) (2024-08-11T13:17:14Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。