論文の概要: Towards Interpretable Hallucination Analysis and Mitigation in LVLMs via Contrastive Neuron Steering
- arxiv url: http://arxiv.org/abs/2602.00621v1
- Date: Sat, 31 Jan 2026 09:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.296486
- Title: Towards Interpretable Hallucination Analysis and Mitigation in LVLMs via Contrastive Neuron Steering
- Title(参考訳): コントラスト性ニューロンステアリングによるLVLMの解釈型幻覚解析と緩和に向けて
- Authors: Guangtao Lyu, Xinyi Cheng, Qi Liu, Chenghao Xu, Jiexi Yan, Muli Yang, Fen Fang, Cheng Deng,
- Abstract要約: 既存の緩和法は主に出力レベルの調整に重点を置いており、幻覚を引き起こす内部メカニズムはほとんど探索されていない。
クリーン入力とノイズ入力のコントラスト解析により画像特異的ニューロンを識別するコントラスト性ニューロンステアリング(CNS)を提案する。
CNSは摂動によって引き起こされる活性化を抑えつつ情報伝達ニューロンを選択的に増幅し、より堅牢でセマンティックな視覚表現を生み出す。
- 参考スコア(独自算出の注目度): 60.23509717784518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LVLMs achieve remarkable multimodal understanding and generation but remain susceptible to hallucinations. Existing mitigation methods predominantly focus on output-level adjustments, leaving the internal mechanisms that give rise to these hallucinations largely unexplored. To gain a deeper understanding, we adopt a representation-level perspective by introducing sparse autoencoders (SAEs) to decompose dense visual embeddings into sparse, interpretable neurons. Through neuron-level analysis, we identify distinct neuron types, including always-on neurons and image-specific neurons. Our findings reveal that hallucinations often result from disruptions or spurious activations of image-specific neurons, while always-on neurons remain largely stable. Moreover, selectively enhancing or suppressing image-specific neurons enables controllable intervention in LVLM outputs, improving visual grounding and reducing hallucinations. Building on these insights, we propose Contrastive Neuron Steering (CNS), which identifies image-specific neurons via contrastive analysis between clean and noisy inputs. CNS selectively amplifies informative neurons while suppressing perturbation-induced activations, producing more robust and semantically grounded visual representations. This not only enhances visual understanding but also effectively mitigates hallucinations. By operating at the prefilling stage, CNS is fully compatible with existing decoding-stage methods. Extensive experiments on both hallucination-focused and general multimodal benchmarks demonstrate that CNS consistently reduces hallucinations while preserving overall multimodal understanding.
- Abstract(参考訳): LVLMは目覚ましいマルチモーダル理解と生成を達成するが、幻覚の影響を受けやすいままである。
既存の緩和法は主に出力レベルの調整に重点を置いており、これらの幻覚を引き起こす内部メカニズムはほとんど解明されていない。
より深い理解を得るために、我々はスパースオートエンコーダ(SAE)を導入し、疎い解釈可能なニューロンに密な視覚埋め込みを分解することで、表現レベルの視点を採用する。
ニューロンレベルの分析により、常にオンのニューロンや画像特異的なニューロンを含む、異なるニューロンタイプを同定する。
幻覚は画像特異的ニューロンの破壊や急激な活性化によって引き起こされることが多いが、常発ニューロンは概ね安定している。
さらに、画像特異的ニューロンを選択的に増強または抑制することにより、LVLM出力への制御可能な介入を可能にし、視覚的接地を改善し、幻覚を減少させることができる。
これらの知見に基づいて、クリーン入力とノイズ入力のコントラスト解析により、画像特異的ニューロンを識別するContrastive Neuron Steering (CNS)を提案する。
CNSは摂動によって引き起こされる活性化を抑えつつ情報伝達ニューロンを選択的に増幅し、より堅牢でセマンティックな視覚表現を生み出す。
これは視覚的理解を高めるだけでなく、幻覚を効果的に緩和する。
プリフィル段階での動作により、CNSは既存のデコードステージメソッドと完全に互換性がある。
幻覚に焦点をあてたベンチマークと一般的なマルチモーダルベンチマークの両方に関する大規模な実験は、CNSが全体的なマルチモーダル理解を維持しながら、常に幻覚を減少させることを示した。
関連論文リスト
- H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs [56.31565301428888]
大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定
同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。
行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
論文 参考訳(メタデータ) (2025-12-01T15:32:14Z) - Spatiotemporal Learning of Brain Dynamics from fMRI Using Frequency-Specific Multi-Band Attention for Cognitive and Psychiatric Applications [5.199807441687141]
MBBN(Multi-Band Net Brain)は、周波数特異的脳波を明示的にモデル化するトランスフォーマーベースのフレームワークである。
MBBNは3つの大規模なコホートで49,673人の個人を訓練し、精神医学と認知学の成果を予測する新しい最先端技術を確立している。
論文 参考訳(メタデータ) (2025-03-30T10:56:50Z) - Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
高度に正常なニューロンでも,多節性行動が持続的に発現していることが示される。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
論文 参考訳(メタデータ) (2025-02-04T03:33:55Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方では、ニューロン間の'バインディング'が、ネットワークの深い層においてより抽象的な概念を表現するために表現を圧縮する、競争的な学習の形式につながることが知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、定量化、推論など、幅広いタスクにわたるパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - ConceptLens: from Pixels to Understanding [1.3466710708566176]
ConceptLensは、隠れたニューロンの活性化を可視化することによって、ディープニューラルネットワーク(DNN)の複雑な動作を照明する革新的なツールである。
ディープラーニングとシンボリックな方法を統合することで、ConceptLensは、ニューロンの活性化を引き起こすものを理解するユニークな方法を提供する。
論文 参考訳(メタデータ) (2024-10-04T20:49:12Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。