論文の概要: What Does Loss Optimization Actually Teach, If Anything? Knowledge Dynamics in Continual Pre-training of LLMs
- arxiv url: http://arxiv.org/abs/2601.03858v1
- Date: Wed, 07 Jan 2026 12:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.503804
- Title: What Does Loss Optimization Actually Teach, If Anything? Knowledge Dynamics in Continual Pre-training of LLMs
- Title(参考訳): 損失最適化とは何か? LLMの継続事前学習における知識ダイナミクス
- Authors: Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi,
- Abstract要約: 我々は,CPT(Continuous Pre-Training)を,単なる最適化問題ではなく,知識学習プロセスとして検討する。
我々は,実写文書の制御された分布マッチングベンチマークを構築し,CPTループに直接診断プローブをインターリーブする。
我々は、CPTが学習中に知識回路をどう反応させるかを分析する。
- 参考スコア(独自算出の注目度): 1.542087313597676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Pre-Training (CPT) is widely used for acquiring and updating factual knowledge in LLMs. This practice treats loss as a proxy for knowledge learning, while offering no grounding into how it changes during training. We study CPT as a knowledge learning process rather than a solely optimization problem. We construct a controlled, distribution-matched benchmark of factual documents and interleave diagnostic probes directly into the CPT loop, enabling epoch-level measurement of knowledge acquisition dynamics and changes in Out-Of-Domain (OOD) general skills (e.g., math). We further analyze how CPT reshapes knowledge circuits during training. Across three instruction-tuned LLMs and multiple CPT strategies, optimization and learning systematically diverge as loss decreases monotonically while factual learning is unstable and non-monotonic. Acquired facts are rarely consolidated, learning is strongly conditioned on prior exposure, and OOD performance degrades from early epochs. Circuit analysis reveals rapid reconfiguration of knowledge pathways across epochs, providing an explanation for narrow acquisition windows and systematic forgetting. These results show that loss optimization is misaligned with learning progress in CPT and motivate evaluation of stopping criteria based on task-level learning dynamics.
- Abstract(参考訳): CPT(Continuous Pre-Training)は、LLMにおける事実知識の取得と更新に広く用いられている。
このプラクティスは、損失を知識学習のプロキシとして扱い、トレーニング中にそれがどう変化するのかを根拠にしない。
我々は,CPTを単なる最適化問題ではなく,知識学習プロセスとして研究する。
CPTループに直接診断プローブをインターリーブすることで,知識獲得ダイナミクスのエポックレベル測定とOF-Domain(OF-Domain)一般スキル(数学など)の変化を可能にする。
さらに、CPTが学習中に知識回路をどう反応させるかを分析する。
3つの命令調整 LLM と複数の CPT 戦略、最適化と学習は、損失が単調に減少する一方、事実学習は不安定で非単調であるので、体系的に異なる。
獲得された事実は滅多に統合されず、学習は事前の暴露によって強く条件付けられ、OODのパフォーマンスは初期の時代から低下する。
回路解析により、エポック全体にわたる知識経路の迅速な再構成が明らかになり、狭い獲得ウィンドウと体系的な忘れ方の説明が提供される。
これらの結果から、損失最適化はCPTの学習進捗と一致せず、タスクレベルの学習力学に基づく停止基準の評価を動機付けていることがわかった。
関連論文リスト
- Memorization vs. Reasoning: Updating LLMs with New Knowledge [12.214561228023511]
我々は、現実的な知識更新をシミュレートする自動パイプラインであるKUP(Knowledge Update Playground)を紹介する。
本稿では,自己生成した「メモリ」トークンの更新コーパスにトークンを条件付ける,MCT(Memory Conditioned Training)という軽量な手法を提案する。
以上の結果から,(1) KUPベンチマークは非常に困難であり, 最高のCPTモデルでは, 間接的推論設定(推論)で2%$を達成し, (2) MCTトレーニングでは, 先行事前学習(CPT)ベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-16T23:03:40Z) - Enhancing LLM Knowledge Learning through Generalization [73.16975077770765]
我々は,LLMが様々な言い換えの文脈に与えられた同じ事実的知識トークンを継続的に予測する能力は,質問応答によってその知識を抽出する能力と正の相関性を示す。
そこで本稿では,LLMの知識獲得能力を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [26.079123341965687]
低ランク学習を研究し,LoRAのランクや配置が学習や忘れにどのように影響するかを分析した。
上位のLoRAはタスク学習(塑性)を改善するが、下位のLoRAは安定性を高めるが適応を制限する。
そこで我々は,適応的に最適化されたLoRAアダプタを用いてPTMを継続的に更新する連続動的ランク選択LoRA(CoDyRA)を提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。