論文の概要: Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs
- arxiv url: http://arxiv.org/abs/2604.19765v1
- Date: Fri, 27 Mar 2026 00:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.057718
- Title: Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs
- Title(参考訳): 幻覚ニューロンは一般化するか? : LLMにおけるクロスドメイン移動の証拠
- Authors: Snehit Vaddi, Pujith Vaddi,
- Abstract要約: 最近の研究は「幻覚ニューロン」(Hニューロン)の集合を同定している
これらのニューロンは、いつ大きな言語モデルが幻覚するかを確実に予測する。
我々はHニューロンが知識領域をまたいで一般化するかという自然なフォローアップ質問を問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work identifies a sparse set of "hallucination neurons" (H-neurons), less than 0.1% of feed-forward network neurons, that reliably predict when large language models will hallucinate. These neurons are identified on general-knowledge question answering and shown to generalize to new evaluation instances. We ask a natural follow-up question: do H-neurons generalize across knowledge domains? Using a systematic cross-domain transfer protocol across 6 domains (general QA, legal, financial, science, moral reasoning, and code vulnerability) and 5 open-weight models (3B to 8B parameters), we find they do not. Classifiers trained on one domain's H-neurons achieve AUROC 0.783 within-domain but only 0.563 when transferred to a different domain (delta = 0.220, p < 0.001), a degradation consistent across all models tested. Our results suggest that hallucination is not a single mechanism with a universal neural signature, but rather involves domain-specific neuron populations that differ depending on the knowledge type being queried. This finding has direct implications for the deployment of neuron-level hallucination detectors, which must be calibrated per domain rather than trained once and applied universally.
- Abstract(参考訳): 近年の研究では、大きな言語モデルが幻覚する時期を確実に予測する「幻覚ニューロン」(Hニューロン)のスパースセット(フィードフォワードネットワークニューロンの0.1%未満)が特定されている。
これらのニューロンは、一般知識質問応答に基づいて同定され、新しい評価インスタンスに一般化するように示される。
Hニューロンは知識領域をまたいで一般化するのか?
6つのドメイン(一般的なQA、法律、財務、科学、道徳的推論、コード脆弱性)と5つのオープンウェイトモデル(3Bから8Bパラメータ)にまたがるシステマティックなクロスドメイン転送プロトコルを使用することで、そうでないことがわかった。
あるドメインのH-ニューロンで訓練された分類器は、AUROC 0.783を内部ドメインで達成するが、異なるドメイン(delta = 0.220, p < 0.001)に移行すると0.563しか達成しない。
以上の結果から,幻覚は普遍的な神経署名を持つ単一のメカニズムではなく,クエリされる知識の種類によって異なる,ドメイン固有のニューロン集団が関与していることが示唆された。
この発見は、ニューロンレベルの幻覚検出器の展開に直接的な意味を持つが、これは一度訓練され、普遍的に適用されるのではなく、ドメインごとの校正が必要である。
関連論文リスト
- Where Fake Citations Are Made: Tracing Field-Level Hallucination to Specific Neurons in LLMs [11.32939066964858]
9つのモデルと108,000の生成された参照の失敗を研究します。
著者の名前は、すべてのモデルの他のフィールドよりもはるかに頻繁に失敗する。
フィールド特異的幻覚ニューロンのスパース集合を同定する。
論文 参考訳(メタデータ) (2026-04-20T22:01:16Z) - H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs [56.31565301428888]
大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定
同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。
行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
論文 参考訳(メタデータ) (2025-12-01T15:32:14Z) - Universal Neurons in GPT-2: Emergence, Persistence, and Functional Impact [7.434408249978527]
独立訓練GPT-2小モデルにおけるニューロンの普遍性現象について検討する。
我々は500万トークンのデータセット上での活性化のペアワイズ相関解析により普遍ニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-28T22:45:33Z) - Neuron Platonic Intrinsic Representation From Dynamics Using Contrastive Learning [4.538151592901714]
我々はNeurPIR(Neuron Platonic Intrinsic Representation)フレームワークを提案する。
対照的な学習を使用し、正の対と同じニューロンのセグメントと、負の対である異なるニューロンのセグメントを持つ。
我々はIzhikevichモデルを用いた神経集団動態データを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-06T02:22:23Z) - Universal Neurons in GPT2 Language Models [4.9892471449871305]
異なる初期ランダムシードから学習したGPT2モデルにおける個々のニューロンの普遍性について検討した。
ニューロンの1-5%が普遍的、すなわち、同じ入力で一貫して活性化されるニューロンのペアであることがわかった。
論文 参考訳(メタデータ) (2024-01-22T18:11:01Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。