論文の概要: Two Pathways to Truthfulness: On the Intrinsic Encoding of LLM Hallucinations
- arxiv url: http://arxiv.org/abs/2601.07422v1
- Date: Mon, 12 Jan 2026 11:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.352015
- Title: Two Pathways to Truthfulness: On the Intrinsic Encoding of LLM Hallucinations
- Title(参考訳): 真理への2つの道 : LLM幻覚の内在的エンコーディングについて
- Authors: Wen Luo, Guangyue Peng, Wei Li, Shaohang Wei, Feifan Song, Liang Wang, Nan Yang, Xingxing Zhang, Jing Jin, Furu Wei, Houfeng Wang,
- Abstract要約: 大型言語モデル(LLM)は幻覚を頻繁に生成する。
以前の研究は、彼らの内部状態が真実性の豊かなシグナルを符号化していることを示している。
本稿では,2つの異なる情報経路から真理性の手がかりが生じることを示す。
- 参考スコア(独自算出の注目度): 70.43616821802249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their impressive capabilities, large language models (LLMs) frequently generate hallucinations. Previous work shows that their internal states encode rich signals of truthfulness, yet the origins and mechanisms of these signals remain unclear. In this paper, we demonstrate that truthfulness cues arise from two distinct information pathways: (1) a Question-Anchored pathway that depends on question-answer information flow, and (2) an Answer-Anchored pathway that derives self-contained evidence from the generated answer itself. First, we validate and disentangle these pathways through attention knockout and token patching. Afterwards, we uncover notable and intriguing properties of these two mechanisms. Further experiments reveal that (1) the two mechanisms are closely associated with LLM knowledge boundaries; and (2) internal representations are aware of their distinctions. Finally, building on these insightful findings, two applications are proposed to enhance hallucination detection performance. Overall, our work provides new insight into how LLMs internally encode truthfulness, offering directions for more reliable and self-aware generative systems.
- Abstract(参考訳): 印象的な能力にもかかわらず、大きな言語モデル(LLM)は幻覚を頻繁に生成する。
以前の研究は、それらの内部状態が真実性の豊富なシグナルを符号化していることを示しているが、これらの信号の起源とメカニズムはいまだ不明である。
本稿では,(1)質問-回答情報の流れに依存する質問-回答経路,(2)回答自体から自己完結した証拠を導出する回答-回答経路の2つの異なる情報経路から真偽の手がかりが生じることを実証する。
まず、注意ノックアウトやトークンパッチングを通じてこれらの経路を検証する。
その後、これらの2つのメカニズムの顕著かつ興味深い性質を明らかにした。
さらに,(1)2つのメカニズムはLLMの知識境界と密接に関連しており,(2)内部表現は両者の区別を認識している。
最後に,これらの知見に基づいて,幻覚検出性能を高めるための2つの応用を提案する。
全体として、我々の研究は、LLMが真理性を内部的にエンコードする方法に関する新たな洞察を提供し、より信頼性が高く自己認識的な生成システムへの方向性を提供します。
関連論文リスト
- Large Language Models Do NOT Really Know What They Don't Know [37.641827402866845]
最近の研究は、大言語モデル(LLM)が、その内部表現に事実性信号をエンコードしていることを示唆している。
LLMは、ショートカットやスプリアスアソシエーションに頼ることで、事実エラーを発生させることもできる。
論文 参考訳(メタデータ) (2025-10-10T06:09:04Z) - Correcting Hallucinations in News Summaries: Exploration of Self-Correcting LLM Methods with External Knowledge [5.065947993017158]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成する優れた能力を示している。
彼らは幻覚の問題に悩まされ、実際には不正確な声明を出している。
本稿では,3つの検索エンジンから得られた証拠を用いて,幻覚の要約を正す手法を用いて,最先端の自己修正システム2つについて検討する。
論文 参考訳(メタデータ) (2025-06-24T13:20:31Z) - Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、現実世界のアプリケーションにまたがる課題が増えていることを示している。
幻覚を系統的に引き起こし定量化するプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T14:33:47Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T02:52:07Z) - Mechanistic Understanding and Mitigation of Language Model Non-Factual Hallucinations [42.46721214112836]
State-of-the-art Language Model (LM) は、世界の知識と混同する非現実的な幻覚を生じることがある。
我々は、主観的関係クエリを用いた診断データセットを作成し、内部モデル表現による幻覚の追跡に解釈可能性手法を適用した。
論文 参考訳(メタデータ) (2024-03-27T00:23:03Z) - Rowen: Adaptive Retrieval-Augmented Generation for Hallucination Mitigation in LLMs [88.75700174889538]
幻覚は大きな言語モデル(LLM)にとって大きな課題となる。
実物生成におけるパラメトリック知識の利用は, LLMの限られた知識によって制限される。
本稿では,幻覚出力に対応する適応的検索拡張プロセスによりLLMを強化する新しいフレームワークであるRowenについて述べる。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。