論文の概要: A Theoretical Framework for LLM Fine-tuning Using Early Stopping for Non-random Initialization
- arxiv url: http://arxiv.org/abs/2602.13942v1
- Date: Sun, 15 Feb 2026 00:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.572913
- Title: A Theoretical Framework for LLM Fine-tuning Using Early Stopping for Non-random Initialization
- Title(参考訳): 非ランダム初期化のための早期停止を用いたLCMファインチューニングの一理論的枠組み
- Authors: Zexuan Sun, Garvesh Raskutti,
- Abstract要約: 中心的な疑問は、多くの異なるタスクにおいて強いパフォーマンスを達成するのに、なぜいくつかの微調整のエポックしか不十分なのかである。
我々は,厳密な早期停止理論と注目に基づくニューラルタンジェントカーネル(NTK)を併用して,大規模言語モデルを構築する。
- 参考スコア(独自算出の注目度): 2.635536317968963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of large language models (LLMs), fine-tuning pretrained models has become ubiquitous. Yet the theoretical underpinning remains an open question. A central question is why only a few epochs of fine-tuning are typically sufficient to achieve strong performance on many different tasks. In this work, we approach this question by developing a statistical framework, combining rigorous early stopping theory with the attention-based Neural Tangent Kernel (NTK) for LLMs, offering new theoretical insights on fine-tuning practices. Specifically, we formally extend classical NTK theory [Jacot et al., 2018] to non-random (i.e., pretrained) initializations and provide a convergence guarantee for attention-based fine-tuning. One key insight provided by the theory is that the convergence rate with respect to sample size is closely linked to the eigenvalue decay rate of the empirical kernel matrix induced by the NTK. We also demonstrate how the framework can be used to explain task vectors for multiple tasks in LLMs. Finally, experiments with modern language models on real-world datasets provide empirical evidence supporting our theoretical insights.
- Abstract(参考訳): 大規模言語モデル (LLMs) の時代には、微調整事前訓練されたモデルがユビキタスになってきた。
しかし、理論的基盤は未解決の問題のままである。
中心的な疑問は、多くの異なるタスクにおいて強いパフォーマンスを達成するのに、なぜいくつかの微調整のエポックしか不十分なのかである。
本研究では,厳密な早期停止理論と注意に基づくニューラルタンジェントカーネル(NTK)を組み合わさり,微調整の実践に関する新たな理論的知見を提供する。
具体的には、古典的NTK理論 [Jacot et al , 2018] を非ランダムな初期化(すなわち事前学習)に正式に拡張し、注意に基づく微調整の収束を保証する。
この理論から得られる重要な洞察の一つは、サンプルサイズに対する収束速度は、NTKによって誘導される経験的核行列の固有値崩壊率と密接に関連しているということである。
また、LLMにおける複数のタスクに対するタスクベクトルを説明するために、このフレームワークをどのように利用できるかを示す。
最後に、実世界のデータセット上での現代の言語モデルによる実験は、我々の理論的洞察を裏付ける実証的な証拠を提供する。
関連論文リスト
- How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models [64.02612380298228]
最近の研究は、テストタイムトレーニング(TTT)として知られる特定のタスクに対して、テストタイムでモデルをトレーニングし続けるというアイデアを探求している。
本稿では,TTTがグローバルトレーニングよりもはるかに小さな分布内テスト誤差を達成できるモデルを提案する。
我々は、ImageNet上でスパースオートエンコーダをトレーニングすることで、モデルの主要な仮定を実証的に検証する。
論文 参考訳(メタデータ) (2025-09-29T09:24:52Z) - CoT-Space: A Theoretical Framework for Internal Slow-Thinking via Reinforcement Learning [14.337056020596465]
CoT-Spaceは、離散トークン予測タスクから連続的、推論レベルのセマンティック空間内の最適化プロセスへの推論を、LLM(Large Language Models)に再キャストする新しい理論フレームワークである。
最適CoT長への収束は、不適合と過適合の基本的なトレードオフの自然な結果であることを示す。
論文 参考訳(メタデータ) (2025-09-04T09:02:16Z) - A Kernel-Based View of Language Model Fine-Tuning [94.75146965041131]
ニューラル・タンジェント・カーネル(NTK)が事前学習したLMの微調整を記述しているかどうかを検討する。
本稿では,ダウンストリームタスクを暗黙の単語予測問題として定式化することで,微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-11T17:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。