論文の概要: What Does Loss Optimization Actually Teach, If Anything? Knowledge Dynamics in Continual Pre-training of LLMs
- arxiv url: http://arxiv.org/abs/2601.03858v1
- Date: Wed, 07 Jan 2026 12:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.503804
- Title: What Does Loss Optimization Actually Teach, If Anything? Knowledge Dynamics in Continual Pre-training of LLMs
- Title(参考訳): 損失最適化とは何か? LLMの継続事前学習における知識ダイナミクス
- Authors: Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi,
- Abstract要約: 我々は,CPT(Continuous Pre-Training)を,単なる最適化問題ではなく,知識学習プロセスとして検討する。
我々は,実写文書の制御された分布マッチングベンチマークを構築し,CPTループに直接診断プローブをインターリーブする。
我々は、CPTが学習中に知識回路をどう反応させるかを分析する。
- 参考スコア(独自算出の注目度): 1.542087313597676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Pre-Training (CPT) is widely used for acquiring and updating factual knowledge in LLMs. This practice treats loss as a proxy for knowledge learning, while offering no grounding into how it changes during training. We study CPT as a knowledge learning process rather than a solely optimization problem. We construct a controlled, distribution-matched benchmark of factual documents and interleave diagnostic probes directly into the CPT loop, enabling epoch-level measurement of knowledge acquisition dynamics and changes in Out-Of-Domain (OOD) general skills (e.g., math). We further analyze how CPT reshapes knowledge circuits during training. Across three instruction-tuned LLMs and multiple CPT strategies, optimization and learning systematically diverge as loss decreases monotonically while factual learning is unstable and non-monotonic. Acquired facts are rarely consolidated, learning is strongly conditioned on prior exposure, and OOD performance degrades from early epochs. Circuit analysis reveals rapid reconfiguration of knowledge pathways across epochs, providing an explanation for narrow acquisition windows and systematic forgetting. These results show that loss optimization is misaligned with learning progress in CPT and motivate evaluation of stopping criteria based on task-level learning dynamics.
- Abstract(参考訳): CPT(Continuous Pre-Training)は、LLMにおける事実知識の取得と更新に広く用いられている。
このプラクティスは、損失を知識学習のプロキシとして扱い、トレーニング中にそれがどう変化するのかを根拠にしない。
我々は,CPTを単なる最適化問題ではなく,知識学習プロセスとして研究する。
CPTループに直接診断プローブをインターリーブすることで,知識獲得ダイナミクスのエポックレベル測定とOF-Domain(OF-Domain)一般スキル(数学など)の変化を可能にする。
さらに、CPTが学習中に知識回路をどう反応させるかを分析する。
3つの命令調整 LLM と複数の CPT 戦略、最適化と学習は、損失が単調に減少する一方、事実学習は不安定で非単調であるので、体系的に異なる。
獲得された事実は滅多に統合されず、学習は事前の暴露によって強く条件付けられ、OODのパフォーマンスは初期の時代から低下する。
回路解析により、エポック全体にわたる知識経路の迅速な再構成が明らかになり、狭い獲得ウィンドウと体系的な忘れ方の説明が提供される。
これらの結果から、損失最適化はCPTの学習進捗と一致せず、タスクレベルの学習力学に基づく停止基準の評価を動機付けていることがわかった。
関連論文リスト
- Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。
本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。
我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文 参考訳(メタデータ) (2025-12-01T15:56:00Z) - Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。
これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。
JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。
大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文 参考訳(メタデータ) (2025-09-02T20:38:53Z) - Tackling Distribution Shift in LLM via KILO: Knowledge-Instructed Learning for Continual Adaptation [0.35297361401370037]
大規模言語モデル(LLM)は、ドメインシフトに直面すると、しばしばパフォーマンスの低下に悩まされる。
本稿では,動的知識グラフと命令チューニングを統合した新しい連続学習フレームワークKILOを提案する。
論文 参考訳(メタデータ) (2025-08-05T15:39:37Z) - Memorization vs. Reasoning: Updating LLMs with New Knowledge [12.214561228023511]
我々は、現実的な知識更新をシミュレートする自動パイプラインであるKUP(Knowledge Update Playground)を紹介する。
本稿では,自己生成した「メモリ」トークンの更新コーパスにトークンを条件付ける,MCT(Memory Conditioned Training)という軽量な手法を提案する。
以上の結果から,(1) KUPベンチマークは非常に困難であり, 最高のCPTモデルでは, 間接的推論設定(推論)で2%$を達成し, (2) MCTトレーニングでは, 先行事前学習(CPT)ベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-16T23:03:40Z) - Enhancing LLM Knowledge Learning through Generalization [73.16975077770765]
我々は,LLMが様々な言い換えの文脈に与えられた同じ事実的知識トークンを継続的に予測する能力は,質問応答によってその知識を抽出する能力と正の相関性を示す。
そこで本稿では,LLMの知識獲得能力を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training [92.88889953768455]
大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。
知識記憶と処理を容易にする計算サブグラフを同定する。
論文 参考訳(メタデータ) (2025-02-16T16:55:43Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [26.079123341965687]
低ランク学習を研究し,LoRAのランクや配置が学習や忘れにどのように影響するかを分析した。
上位のLoRAはタスク学習(塑性)を改善するが、下位のLoRAは安定性を高めるが適応を制限する。
そこで我々は,適応的に最適化されたLoRAアダプタを用いてPTMを継続的に更新する連続動的ランク選択LoRA(CoDyRA)を提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - CEM: A Data-Efficient Method for Large Language Models to Continue Evolving From Mistakes [36.14056870453356]
大きな言語モデルを維持し、その欠点に対処するためには、継続的な学習が不可欠です。
本稿では,CPTデータ収集を目的としたデータ効率の高い手法であるCEM法を提案する。
実験の結果、CEMはドメイン内QAタスクとドメイン外QAタスクの両方で複数のモデルの性能を大幅に向上させ、最大29.63%のゲインを達成している。
論文 参考訳(メタデータ) (2024-04-11T17:44:56Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - Learning Fast, Learning Slow: A General Continual Learning Method based
on Complementary Learning System [13.041607703862724]
本稿では,新しいデュアルメモリエクスペリエンス再生(ER)法であるCLS-ERを提案する。
決定境界を意味記憶と整合させながら、新たな知識を得る。
提案手法は,標準ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-29T15:15:23Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。