論文の概要: Where Fake Citations Are Made: Tracing Field-Level Hallucination to Specific Neurons in LLMs
- arxiv url: http://arxiv.org/abs/2604.18880v1
- Date: Mon, 20 Apr 2026 22:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.518471
- Title: Where Fake Citations Are Made: Tracing Field-Level Hallucination to Specific Neurons in LLMs
- Title(参考訳): フェイクシチューが作られる場所: LLMにおけるフィールドレベル幻覚と特定のニューロンの追跡
- Authors: Yuefei Chen, Yihao Quan, Xiaodong Lin, Ruixiang Tang,
- Abstract要約: 9つのモデルと108,000の生成された参照の失敗を研究します。
著者の名前は、すべてのモデルの他のフィールドよりもはるかに頻繁に失敗する。
フィールド特異的幻覚ニューロンのスパース集合を同定する。
- 参考スコア(独自算出の注目度): 11.32939066964858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs frequently generate fictitious yet convincing citations, often expressing high confidence even when the underlying reference is wrong. We study this failure across 9 models and 108{,}000 generated references, and find that author names fail far more often than other fields across all models and settings. Citation style has no measurable effect, while reasoning-oriented distillation degrades recall. Probes trained on one field transfer at near-chance levels to the others, suggesting that hallucination signals do not generalize across fields. Building on this finding, we apply elastic-net regularization with stability selection to neuron-level CETT values of Qwen2.5-32B-Instruct and identify a sparse set of field-specific hallucination neurons (FH-neurons). Causal intervention further confirms their role: amplifying these neurons increases hallucination, while suppressing them improves performance across fields, with larger gains in some fields. These results suggest a lightweight approach to detecting and mitigating citation hallucination using internal model signals alone.
- Abstract(参考訳): LLMは、しばしば架空のが説得力のある引用を生成し、基礎となる参照が間違っていても高い信頼を表現している。
9つのモデルと108{,}000の生成された参照でこの障害を調査し、著者名が他のモデルや設定のフィールドよりもはるかに頻繁に失敗することを発見した。
クエンテーションスタイルは測定可能な効果を持たないが、推論指向の蒸留はリコールを低下させる。
研究者は、あるフィールドを他のフィールドに近距離で移動させることで訓練し、幻覚信号がフィールド全体にわたって一般化しないことを示唆した。
本研究は、Qwen2.5-32B-InstructのニューロンレベルのCETT値に安定性の選択による弾性ネット正則化を適用し、フィールド特異的幻覚ニューロン(FH-neurons)のスパースセットを同定する。
これらのニューロンの増幅は幻覚を増大させ、一方でそれらを抑制することでフィールド全体のパフォーマンスが向上し、いくつかの分野では大きな利益をもたらす。
これらの結果から,内部モデル信号のみを用いた引用幻覚の検出と緩和への軽量なアプローチが示唆された。
関連論文リスト
- Visualizing and Benchmarking LLM Factual Hallucination Tendencies via Internal State Analysis and Clustering [2.357397994148727]
大型言語モデル (LLM) はしばしば幻覚を起こし、医学や法律のような敏感な分野において特に有害な非感覚的または偽の情報を生成する。
FalseCiteは、誤解を招いたり、偽造された引用によって引き起こされた幻覚応答を捕捉し、ベンチマークするために設計された、キュレートされたデータセットである。
GPT-4o-mini, Falcon-7B, Mistral 7-BをFalseCiteで実行し, 誤認による誤認に対する幻覚活動が顕著に増加した。
論文 参考訳(メタデータ) (2026-01-18T22:51:40Z) - DHI: Leveraging Diverse Hallucination Induction for Enhanced Contrastive Factuality Control in Large Language Models [33.2779808039684]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる不正確な情報や偽造情報を生成する。
DHI(Diverse Hallucination induction)は,事前の注釈付きデータに頼らずにより広い範囲の幻覚を生成する新しい学習フレームワークである。
DHIは、複数の幻覚ベンチマークにまたがる他のコントラストなデコーディングベースのアプローチよりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-01-03T10:55:41Z) - H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs [56.31565301428888]
大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定
同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。
行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
論文 参考訳(メタデータ) (2025-12-01T15:32:14Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States [0.5573267589690007]
我々は、トレーニングで使われていない情報を含む幻覚に焦点を当て、それは、カットオフ後の情報を確実にするために、正確性を用いて決定する。
本研究では,様々な言語モデルの内部状態を用いて,これらの幻覚を文レベルで検出する。
以上の結果から,IAVはCEVと同じくらい効果的に幻覚を検知し,解答可能なプロンプトと解答不能なプロンプトは別個の分類器としてコード化されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-12-22T15:08:24Z) - Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training [17.347067827911406]
トレーニングダイナミクスの不確かさと幻覚の出現との関係について検討する。
本稿では,学習中の幻覚のばらつきを軽減するための新しいトレーニングプロトコルであるSensitivity Dropout (SenD)を提案する。
SenDは、PythiaとMetaのLlamaモデルのテスト時の信頼性を最大17%向上し、Wikipedia、メディカル、法律、コーディングドメインの事実精度を向上させる。
論文 参考訳(メタデータ) (2024-10-20T18:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。