論文の概要: Over-Alignment vs Over-Fitting: The Role of Feature Learning Strength in Generalization
- arxiv url: http://arxiv.org/abs/2602.00827v1
- Date: Sat, 31 Jan 2026 17:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.421368
- Title: Over-Alignment vs Over-Fitting: The Role of Feature Learning Strength in Generalization
- Title(参考訳): オーバーアライメントとオーバーフィッティング--一般化における特徴学習力の役割
- Authors: Taesun Yeom, Taehyeok Ha, Jaeho Lee,
- Abstract要約: 本研究では,ロジスティック損失を学習した2層ReLUネットにおける勾配流れの動的解析法を開発した。
過度に大きいFLSは、一般化を低下させる$textitover-alignment$現象を誘導する一方、過度に小さなFLSは$textitover-fitting$を誘導する。
- 参考スコア(独自算出の注目度): 8.58740389510812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature learning strength (FLS), i.e., the inverse of the effective output scaling of a model, plays a critical role in shaping the optimization dynamics of neural nets. While its impact has been extensively studied under the asymptotic regimes -- both in training time and FLS -- existing theory offers limited insight into how FLS affects generalization in practical settings, such as when training is stopped upon reaching a target training risk. In this work, we investigate the impact of FLS on generalization in deep networks under such practical conditions. Through empirical studies, we first uncover the emergence of an $\textit{optimal FLS}$ -- neither too small nor too large -- that yields substantial generalization gains. This finding runs counter to the prevailing intuition that stronger feature learning universally improves generalization. To explain this phenomenon, we develop a theoretical analysis of gradient flow dynamics in two-layer ReLU nets trained with logistic loss, where FLS is controlled via initialization scale. Our main theoretical result establishes the existence of an optimal FLS arising from a trade-off between two competing effects: An excessively large FLS induces an $\textit{over-alignment}$ phenomenon that degrades generalization, while an overly small FLS leads to $\textit{over-fitting}$.
- Abstract(参考訳): 特徴学習強度(FLS)、すなわち、モデルの効果的な出力スケーリングの逆転は、ニューラルネットの最適化力学を形成する上で重要な役割を果たす。
その影響は、トレーニング時間とFLSの両方において、漸近的な体制の下で広く研究されているが、既存の理論は、FLSが目標のトレーニングリスクに達するとトレーニングが停止した場合など、実践的な環境での一般化にどのように影響するかについての限られた洞察を与えている。
本研究では,FLSが深層ネットワークの一般化に与える影響について検討する。
経験的研究を通じて、まず$\textit{optimal FLS}$ -- 小さすぎても大さすぎても -- が出現し、かなりの一般化が得られます。
この発見は、より強力な特徴学習が一般化を普遍的に改善するという一般的な直観に反する。
この現象を説明するために、FLSを初期化スケールで制御するロジスティック損失を訓練した2層ReLUネットにおける勾配流のダイナミクスの理論解析を開発した。
我々の主要な理論的結果は、2つの競合する効果のトレードオフから生じる最適なFLSの存在を確立している: 過大に大きいFLSは、一般化を低下させる$\textit{over-alignment}$現象を誘導し、過大に小さなFLSは$\textit{over-fitting}$へと導く。
関連論文リスト
- Data Distribution as a Lever for Guiding Optimizers Toward Superior Generalization in LLMs [60.68927774057402]
はじめに、単純さのバイアスが小さくなれば、より良い一般化がもたらされることを示す。
この知見に触発されて、訓練後のサンプルのアップサンプリングや強化によるトレーニングデータ分布がSBを減少させ、一般化の改善につながることを示す。
我々はPhi2-2.7B, Llama3.2-1B, Gemma3-1B-PT, Qwen3-0.6B-Base など複数の言語モデルの性能向上を図る。
論文 参考訳(メタデータ) (2026-01-31T07:40:36Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Why Do Transformers Fail to Forecast Time Series In-Context? [21.43699354236011]
時系列予測(TSF)は、機械学習において難しい問題であり、ほとんど未解決である。
実証的な証拠は、パワフルなトランスフォーマーでさえ、より単純なモデルに勝てないことを一貫して示している。
In-Context Learning(ICL)理論のレンズを用いて,トランスフォーマーのTSF制限に関する理論的解析を行う。
論文 参考訳(メタデータ) (2025-10-10T18:34:19Z) - SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs [53.77646961962239]
Supervised Fine-Tuning (SFT) は、大規模言語モデル(LLM)を特殊タスクに適用するための一般的なアプローチである。
より少ない学習率で一般的な性能劣化を著しく軽減することができる。
論文 参考訳(メタデータ) (2025-09-25T05:28:22Z) - Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。
動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-10-16T16:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。