論文の概要: Layer of Truth: Probing Belief Shifts under Continual Pre-Training Poisoning
- arxiv url: http://arxiv.org/abs/2510.26829v1
- Date: Wed, 29 Oct 2025 14:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.855016
- Title: Layer of Truth: Probing Belief Shifts under Continual Pre-Training Poisoning
- Title(参考訳): 真実の層: 連続的事前学習による信念変化の探索
- Authors: Svetlana Churina, Niranjan Chebrolu, Kokil Jaidka,
- Abstract要約: 大規模言語モデルは、絶え間なく拡張されるWebデータの事前トレーニングを通じて、継続的に進化する。
この適応的なプロセスは、それらを微妙な誤報の形で露呈する。
疑似かつ確実な事実への繰り返し暴露が、モデルの内部表現を真実から切り離すことができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 11.28752240109815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) continually evolve through pre-training on ever-expanding web data, but this adaptive process also exposes them to subtle forms of misinformation. While prior work has explored data poisoning during static pre-training, the effects of such manipulations under continual pre-training remain largely unexplored. Drawing inspiration from the illusory truth effect in human cognition - where repeated exposure to falsehoods increases belief in their accuracy - we ask whether LLMs exhibit a similar vulnerability. We investigate whether repeated exposure to false but confidently stated facts can shift a model's internal representation away from the truth. We introduce Layer of Truth, a framework and dataset for probing belief dynamics in continually trained LLMs. By injecting controlled amounts of poisoned data and probing intermediate representations across checkpoints, model scales, and question types, we quantify when and how factual beliefs shift. Our findings reveal that even minimal exposure can induce persistent representational drift in well-established facts, with susceptibility varying across layers and model sizes. These results highlight an overlooked vulnerability of continually updated LLMs: their capacity to internalize misinformation analogously to humans, underscoring the need for robust monitoring of factual integrity during model updates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、絶え間なく拡張されるWebデータの事前学習を通じて継続的に進化するが、この適応プロセスは、それらを微妙な誤情報として公開する。
先行研究は、静的事前訓練中にデータ中毒を調査してきたが、継続事前訓練におけるこのような操作の効果は、ほとんど未解明のままである。
人間の認識における虚偽の真理効果からインスピレーションを得る - 偽装の繰り返し暴露が、その正確性に対する信頼を高める - 我々は、LLMが同様の脆弱性を示すかどうかを問う。
疑似かつ確実な事実への繰り返し暴露が、モデルの内部表現を真実から切り離すことができるかどうかを考察する。
本稿では,絶え間なく訓練されたLLMにおける信念のダイナミクスを探索するためのフレームワークとデータセットであるLayer of Truthを紹介する。
制御された量の有毒データを注入し、チェックポイント、モデルスケール、質問タイプにわたる中間表現を探索することにより、いつ、どのように事実的信念がシフトするかを定量化する。
以上の結果から,最小限の露光でも,階層やモデルサイズによって感受性が変化し,持続的な表現の漂流が引き起こされることが明らかとなった。
これらの結果は、継続的に更新されるLCMの見過ごされた脆弱性を浮き彫りにしている。
関連論文リスト
- LLM Knowledge is Brittle: Truthfulness Representations Rely on Superficial Resemblance [19.466678464397216]
サンプルの提示が事前学習中に見られたものとあまり似ないようになると,文の真偽表現が崩壊することを示す。
これらの結果から、脆性ベンチマークのパフォーマンスが説明できる。
論文 参考訳(メタデータ) (2025-10-13T20:13:56Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.202202256201815]
大型言語モデル(LLM)における実名幻覚
不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。
近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文 参考訳(メタデータ) (2025-05-22T11:00:53Z) - Understanding Knowledge Drift in LLMs through Misinformation [11.605377799885238]
大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。
我々は,QnAシナリオで誤情報に遭遇した場合に,現状のLCMの事実的不正確性に対する感受性を解析する。
実験の結果,LLMの不確実性が56.6%まで増加することが判明した。
論文 参考訳(メタデータ) (2024-09-11T08:11:16Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。