Fugu-MT 論文翻訳(概要): Visual hallucination detection in large vision-language models via evidential conflict

論文の概要: Visual hallucination detection in large vision-language models via evidential conflict

arxiv url: http://arxiv.org/abs/2506.19513v1
Date: Tue, 24 Jun 2025 11:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.602053
Title: Visual hallucination detection in large vision-language models via evidential conflict
Title（参考訳）: 顕在的衝突による視覚言語モデルにおける視覚幻覚検出
Authors: Tao Huang, Zhekun Liu, Rui Wang, Yang Zhang, Liping Jing,
Abstract要約: Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
参考スコア（独自算出の注目度）: 24.465497252040294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable multimodal capabilities of Large Vision-Language Models (LVLMs), discrepancies often occur between visual inputs and textual outputs--a phenomenon we term visual hallucination. This critical reliability gap poses substantial risks in safety-critical Artificial Intelligence (AI) applications, necessitating a comprehensive evaluation benchmark and effective detection methods. Firstly, we observe that existing visual-centric hallucination benchmarks mainly assess LVLMs from a perception perspective, overlooking hallucinations arising from advanced reasoning capabilities. We develop the Perception-Reasoning Evaluation Hallucination (PRE-HAL) dataset, which enables the systematic evaluation of both perception and reasoning capabilities of LVLMs across multiple visual semantics, such as instances, scenes, and relations. Comprehensive evaluation with this new benchmark exposed more visual vulnerabilities, particularly in the more challenging task of relation reasoning. To address this issue, we propose, to the best of our knowledge, the first Dempster-Shafer theory (DST)-based visual hallucination detection method for LVLMs through uncertainty estimation. This method aims to efficiently capture the degree of conflict in high-level features at the model inference phase. Specifically, our approach employs simple mass functions to mitigate the computational complexity of evidence combination on power sets. We conduct an extensive evaluation of state-of-the-art LVLMs, LLaVA-v1.5, mPLUG-Owl2 and mPLUG-Owl3, with the new PRE-HAL benchmark. Experimental results indicate that our method outperforms five baseline uncertainty metrics, achieving average AUROC improvements of 4%, 10%, and 7% across three LVLMs. Our code is available at https://github.com/HT86159/Evidential-Conflict.
Abstract（参考訳）: LVLM(Large Vision-Language Models)の顕著なマルチモーダル機能にもかかわらず、視覚入力とテキスト出力の間にはしばしば相違が生じます。この重要な信頼性ギャップは、安全クリティカル人工知能(AI)アプリケーションに重大なリスクをもたらし、包括的な評価ベンチマークと効果的な検出方法を必要とする。まず,従来の視覚中心幻覚ベンチマークでは,先進的推論能力による幻覚を見越して,知覚的視点からLVLMを主に評価している。 PRE-HAL(Perception-Reasoning Evaluation Hallucination)データセットを開発し,LVLMの知覚と推論能力を複数の視覚的意味論(例,シーン,関係など)にわたって体系的に評価する。この新しいベンチマークによる全体的な評価は、特に関係推論のより困難なタスクにおいて、より視覚的な脆弱性を明らかにした。この問題に対処するため,我々は,不確実性推定によるLVLMに対する最初のDSTに基づく視覚幻覚検出法を提案する。本手法は,モデル推論フェーズにおける高次特徴の競合度を効率的に把握することを目的としている。具体的には、パワーセット上のエビデンスの組み合わせの計算複雑性を軽減するために、単純な質量関数を用いる。我々は,最新のLVLMであるLLaVA-v1.5,mPLUG-Owl2,mPLUG-Owl3を,新しいPre-HALベンチマークを用いて広範囲に評価する。実験結果から,本手法は5つのベースライン不確実性指標より優れ,平均AUROC改善率は4%,10%,7%であった。私たちのコードはhttps://github.com/HT86159/Evidential-Conflict.comで公開されています。

関連論文リスト

SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。 SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文参考訳（メタデータ） (2025-06-10T02:55:38Z)
Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文参考訳（メタデータ） (2025-04-16T14:50:25Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文参考訳（メタデータ） (2025-03-17T04:06:34Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文参考訳（メタデータ） (2024-08-18T10:07:02Z)
Reference-free Hallucination Detection for Large Vision-Language Models [19.36348897433261]
大規模視覚言語モデル(LVLM)は近年大きな進歩を遂げている。 LVLMは、言語理解、質問応答、視覚入力の会話において優れた能力を示す。彼らは幻覚を起こす傾向がある。 LVLMの幻覚を評価するためにいくつかの手法が提案されているが、そのほとんどは参照ベースであり、外部ツールに依存している。
論文参考訳（メタデータ） (2024-08-11T13:17:14Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。