論文の概要: Steering the Verifiability of Multimodal AI Hallucinations
- arxiv url: http://arxiv.org/abs/2604.06714v1
- Date: Wed, 08 Apr 2026 06:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.363174
- Title: Steering the Verifiability of Multimodal AI Hallucinations
- Title(参考訳): マルチモーダルAI幻覚の妥当性の定式化
- Authors: Jianhong Pang, Ruoxi Cheng, Ziyi Ye, Xingjun Ma, Zuxuan Wu, Xuanjing Huang, Yu-Gang Jiang,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は幻覚を起こす傾向があり、人間のユーザーにかなりのリスクをもたらす。
本研究では,覚醒と覚醒のための別々のプローブを学習するアクティベーション空間介入法を提案する。
そこで本研究では,異なる介入プローブを誘発し,モデルの妥当性をきめ細かな制御を可能にすることを明らかにする。
- 参考スコア(独自算出の注目度): 115.51077572812862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI applications driven by multimodal large language models (MLLMs) are prone to hallucinations and pose considerable risks to human users. Crucially, such hallucinations are not equally problematic: some hallucination contents could be detected by human users(i.e., obvious hallucinations), while others are often missed or require more verification effort(i.e., elusive hallucinations). This indicates that multimodal AI hallucinations vary significantly in their verifiability. Yet, little research has explored how to control this property for AI applications with diverse security and usability demands. To address this gap, we construct a dataset from 4,470 human responses to AI-generated hallucinations and categorize these hallucinations into obvious and elusive types based on their verifiability by human users. Further, we propose an activation-space intervention method that learns separate probes for obvious and elusive hallucinations. We reveal that obvious and elusive hallucinations elicit different intervention probes, allowing for fine-grained control over the model's verifiability. Empirical results demonstrate the efficacy of this approach and show that targeted interventions yield superior performance in regulating corresponding verifiability. Moreover, simply mixing these interventions enables flexible control over the verifiability required for different scenarios.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)によって駆動されるAIアプリケーションは幻覚を起こしやすく、人間のユーザにかなりのリスクをもたらす。
重要な点として、このような幻覚は同様に問題ではない: 幻覚の内容は人によって検出される(すなわち、明らかな幻覚)が、他のものはしばしば見逃されるか、より検証の努力を必要とする(即ち、幻覚)。
このことは、マルチモーダルAI幻覚は、その妥当性において著しく異なることを示している。
しかし、さまざまなセキュリティとユーザビリティの要求があるAIアプリケーションに対して、このプロパティを制御する方法についてはほとんど研究されていない。
このギャップに対処するために、我々は、AI生成した幻覚に対する4,470人の人間の反応から得られたデータセットを構築し、これらの幻覚を、人間のユーザによる検証可能性に基づいて、明白でわかりやすいタイプに分類する。
さらに,覚醒と覚醒のための別々のプローブを学習するアクティベーション空間介入法を提案する。
そこで本研究では,異なる介入プローブを誘発し,モデルの妥当性をきめ細かな制御を可能にすることを明らかにする。
実験により, 本手法の有効性を実証し, 対象の介入が, 対応する妥当性の制御において優れた性能を発揮することを示した。
さらに、これらの介入を単純に混ぜることで、異なるシナリオに必要な妥当性を柔軟に制御できる。
関連論文リスト
- Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文 参考訳(メタデータ) (2025-09-26T09:23:08Z) - Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images [6.48620624181578]
SHE(Sequence Hallucination Eradication)は,幻覚を検知し緩和する軽量なフレームワークである。
また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:08:52Z) - HalluEntity: Benchmarking and Understanding Entity-Level Hallucination Detection [16.27352940098609]
本稿では,エンティティレベルで幻覚を注釈する新たなデータセットであるHaluEntityを提案する。
このデータセットに基づいて、17の近代LCMにおける不確実性に基づく幻覚検出手法を評価する。
実験の結果,個々のトークン確率に着目した不確実性推定手法は幻覚を過度に予測する傾向があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T16:01:41Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。