論文の概要: H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
- arxiv url: http://arxiv.org/abs/2512.01797v2
- Date: Tue, 02 Dec 2025 07:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.106053
- Title: H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
- Title(参考訳): H-ニューロン : LLMにおける幻覚関連ニューロンの存在, 影響, 起源について
- Authors: Cheng Gao, Huimin Chen, Chaojun Xiao, Zhiyi Chen, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定
同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。
行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
- 参考スコア(独自算出の注目度): 56.31565301428888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1\%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば幻覚を生成する。
以前の研究では、訓練データや目的などのマクロな視点から幻覚を調べたが、基礎となるニューロンレベルのメカニズムはほとんど解明されていない。
本稿では, LLMにおける幻覚関連ニューロン(H-Neurons)の同定, 行動影響, 起源の3つの観点から系統的研究を行った。
それらの同定について, 幻覚の発生を確実に予測し, 多様なシナリオにまたがる強力な一般化を図りながら, 顕著にスパースなニューロンのサブセット(総ニューロンの0.1 %以下)を証明した。
行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
その起源については、これらのニューロンを事前訓練されたベースモデルに遡り、これらのニューロンは幻覚検出のために予測的であり、事前訓練中に出現することを示す。
我々の研究は、顕微鏡的神経機構でマクロな行動パターンを橋渡し、より信頼性の高いLLMを開発するための洞察を提供する。
関連論文リスト
- NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [63.592664795493725]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、その一般化を実際の実験データで検証する最初の大規模ディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies [7.21603206617401]
より大型のGPT-2モデルでは、マスキングによる劣化の程度を示すために、被マスキング/被マスキングを行うために、不均等に多くの注意ヘッドを必要とすることが示されている。
これらの結果から, トランスフォーマーモデルにおける注意機構は, 認知と脳保護の概念に類似している可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-05T00:31:50Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。