論文の概要: Layer of Truth: Probing Belief Shifts under Continual Pre-Training Poisoning
- arxiv url: http://arxiv.org/abs/2510.26829v1
- Date: Wed, 29 Oct 2025 14:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.855016
- Title: Layer of Truth: Probing Belief Shifts under Continual Pre-Training Poisoning
- Title(参考訳): 真実の層: 連続的事前学習による信念変化の探索
- Authors: Svetlana Churina, Niranjan Chebrolu, Kokil Jaidka,
- Abstract要約: 大規模言語モデルは、絶え間なく拡張されるWebデータの事前トレーニングを通じて、継続的に進化する。
この適応的なプロセスは、それらを微妙な誤報の形で露呈する。
疑似かつ確実な事実への繰り返し暴露が、モデルの内部表現を真実から切り離すことができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 11.28752240109815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) continually evolve through pre-training on ever-expanding web data, but this adaptive process also exposes them to subtle forms of misinformation. While prior work has explored data poisoning during static pre-training, the effects of such manipulations under continual pre-training remain largely unexplored. Drawing inspiration from the illusory truth effect in human cognition - where repeated exposure to falsehoods increases belief in their accuracy - we ask whether LLMs exhibit a similar vulnerability. We investigate whether repeated exposure to false but confidently stated facts can shift a model's internal representation away from the truth. We introduce Layer of Truth, a framework and dataset for probing belief dynamics in continually trained LLMs. By injecting controlled amounts of poisoned data and probing intermediate representations across checkpoints, model scales, and question types, we quantify when and how factual beliefs shift. Our findings reveal that even minimal exposure can induce persistent representational drift in well-established facts, with susceptibility varying across layers and model sizes. These results highlight an overlooked vulnerability of continually updated LLMs: their capacity to internalize misinformation analogously to humans, underscoring the need for robust monitoring of factual integrity during model updates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、絶え間なく拡張されるWebデータの事前学習を通じて継続的に進化するが、この適応プロセスは、それらを微妙な誤情報として公開する。
先行研究は、静的事前訓練中にデータ中毒を調査してきたが、継続事前訓練におけるこのような操作の効果は、ほとんど未解明のままである。
人間の認識における虚偽の真理効果からインスピレーションを得る - 偽装の繰り返し暴露が、その正確性に対する信頼を高める - 我々は、LLMが同様の脆弱性を示すかどうかを問う。
疑似かつ確実な事実への繰り返し暴露が、モデルの内部表現を真実から切り離すことができるかどうかを考察する。
本稿では,絶え間なく訓練されたLLMにおける信念のダイナミクスを探索するためのフレームワークとデータセットであるLayer of Truthを紹介する。
制御された量の有毒データを注入し、チェックポイント、モデルスケール、質問タイプにわたる中間表現を探索することにより、いつ、どのように事実的信念がシフトするかを定量化する。
以上の結果から,最小限の露光でも,階層やモデルサイズによって感受性が変化し,持続的な表現の漂流が引き起こされることが明らかとなった。
これらの結果は、継続的に更新されるLCMの見過ごされた脆弱性を浮き彫りにしている。
関連論文リスト
- LLM Knowledge is Brittle: Truthfulness Representations Rely on Superficial Resemblance [19.466678464397216]
サンプルの提示が事前学習中に見られたものとあまり似ないようになると,文の真偽表現が崩壊することを示す。
これらの結果から、脆性ベンチマークのパフォーマンスが説明できる。
論文 参考訳(メタデータ) (2025-10-13T20:13:56Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。
現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。
Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文 参考訳(メタデータ) (2025-08-06T15:51:02Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.202202256201815]
大型言語モデル(LLM)における実名幻覚
不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。
近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文 参考訳(メタデータ) (2025-05-22T11:00:53Z) - Understanding Knowledge Drift in LLMs through Misinformation [11.605377799885238]
大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。
我々は,QnAシナリオで誤情報に遭遇した場合に,現状のLCMの事実的不正確性に対する感受性を解析する。
実験の結果,LLMの不確実性が56.6%まで増加することが判明した。
論文 参考訳(メタデータ) (2024-09-11T08:11:16Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。
凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。
我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:22:49Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。