論文の概要: Dual-Pathway Circuits of Object Hallucination in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.13156v1
- Date: Wed, 13 May 2026 08:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.906633
- Title: Dual-Pathway Circuits of Object Hallucination in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける物体幻覚のデュアルパスウェイ回路
- Authors: Jiaxin Liu, Ding Zhong, Yue Wang, Zhidong Yang, Zhaolu Kang, Guangyuan Dong, Qishi Zhan, Pengcheng Fang, Aofan Liu,
- Abstract要約: 視覚言語モデル(VLM)は、視覚知覚と自然言語理解をブリッジする際、顕著な能力を示した。
それらはしばしばオブジェクト幻覚を生成し、入力された画像から欠落したコンテンツを記述する。
本稿では,幻覚関連回路をVLMで識別し特徴付けるフレームワークであるDual-Pathway Circuit Analysisを提案する。
- 参考スコア(独自算出の注目度): 8.969579206677897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated remarkable capabilities in bridging visual perception and natural language understanding, enabling a wide range of multimodal reasoning tasks. However, they often produce object hallucinations, describing content absent from the input image, which limits their reliability and interpretability. To address this limitation, we propose Dual-Pathway Circuit Analysis, a framework that identifies and characterizes hallucination-related circuits in VLMs for mechanistic understanding and causal probing. We first apply activation patching across five architecturally diverse VLMs to identify a visual grounding pathway that supports correct predictions and a hallucination pathway that drives erroneous outputs. We then introduce Conditional Pathway Analysis (CPA) to characterize pathway-level interactions, revealing that grounding components remain strongly redundant in both correct and hallucinating samples but undergo a consistent polarity flip, shifting from supporting the ground truth on correct samples to aligning with the hallucinated answer on erroneous ones. We further perform targeted suppression of hallucination-pathway components, showing that scaling these components reduces object hallucination by up to 76% with minimal accuracy cost, and validate that the same circuit selectively transfers to relational but not attribute hallucination. Evaluations on POPE-adversarial and AMBER show that the identified circuits are consistent across architectures, support causal intervention, and transfer selectively across hallucination types.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚知覚と自然言語理解をブリッジすることで、幅広いマルチモーダル推論タスクを可能にしている。
しかし、それらはしばしばオブジェクト幻覚を生成し、入力画像から欠落したコンテンツを記述する。
この制限に対処するために、機械的理解と因果探索のためのVLMにおける幻覚関連回路を識別・特徴付けるフレームワークであるDual-Pathway Circuit Analysisを提案する。
まず,5つのアーキテクチャ的に多様なVLMに対してアクティベーションパッチを適用し,正確な予測を支援する視覚的接地経路と誤出力を駆動する幻覚経路を同定する。
次に、経路レベルの相互作用を特徴づける条件付き経路解析(CPA)を導入し、基底成分が正と幻の両方で強い冗長性を維持しつつ、一貫した極性フリップを行い、正の試料上で基底真理を支持することから、誤解に対する幻の答えと整合することを明らかにする。
さらに,これらの部品のスケーリングにより,最小限の精度で目標幻覚を最大76%削減し,同一回路がリレーショナルに選択的に転送されるが属性幻覚は生じないことを示す。
POPE-adversarialとAMBERの評価では、同定された回路はアーキテクチャ間で一貫性があり、因果介入をサポートし、幻覚型間で選択的に転送する。
関連論文リスト
- When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs [54.411658510110215]
本研究では,異なる要因が幻覚を誘発する程度をよりよく理解するために,HauScopeを提案する。
HalluVL-DPOは、市販のLVLMをより視覚的な応答に向けて微調整するためのフレームワークである。
論文 参考訳(メタデータ) (2026-04-23T17:54:36Z) - Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction [49.96701537295129]
LVLM(Large Vision-Language Models)は、モーダルなタスク間で大きな成功を収めてきたが、幻覚によって妨げられている。
既存の方法は幻覚を緩和するが、しばしば生成行動を変化させ、結果として出力が短くなり、トークンの分布がシフトする。
幻覚緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。
論文 参考訳(メタデータ) (2026-04-09T07:31:27Z) - Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats [36.4775746930584]
本稿では,LVLM(Large Vision-Language Models)におけるトランスフォーマーの因果構造に沿った包括的介入フレームワークを提案する。
LVLMの幻覚は、単一の因果経路ではなく、画像からインプットテキスト、画像からアウトプットテキスト、テキストからテキストへの経路間の相互作用から生じる。
これらの知見に基づいて,各経路における重要な幻覚の頭部を識別し,介入するための簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2025-11-21T13:57:38Z) - Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文 参考訳(メタデータ) (2025-09-26T09:23:08Z) - Exploring and Mitigating Fawning Hallucinations in Large Language Models [52.444712272909435]
各種自然言語処理タスクにおけるハエの幻覚の分析を行う。
我々は、フェニング・ハロシン化緩和のための、いわゆるコントラストデコーディング手法をカスタマイズする。
論文 参考訳(メタデータ) (2025-08-31T14:29:54Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。
それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。
本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文 参考訳(メタデータ) (2025-02-28T05:56:23Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。