論文の概要: Weight Decay Improves Language Model Plasticity
- arxiv url: http://arxiv.org/abs/2602.11137v1
- Date: Wed, 11 Feb 2026 18:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.337445
- Title: Weight Decay Improves Language Model Plasticity
- Title(参考訳): 軽量化により言語モデルの可塑性が向上
- Authors: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade,
- Abstract要約: 本研究では, モデル可塑性の観点から, ベースモデルが下流タスクに適応する能力について検討する。
より大きい重量減衰値で訓練されたモデルは、よりプラスチックであり、下流タスクで微調整された場合、より大きな性能向上を示す。
- 参考スコア(独自算出の注目度): 9.005013915262658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)開発における一般的なパラダイムは、ベースモデルを事前訓練し、パフォーマンスとモデルの振る舞いを改善するためのさらなるトレーニングを実行することである。
しかし、ハイパーパラメータ最適化とスケーリング法則は主に、下流適応性を無視したベースモデルのバリデーション損失の観点から研究されている。
本研究では, モデル可塑性の観点から, ベースモデルが細調整により下流タスクに適応する能力について, 事前学習を行った。
本研究は,事前学習における鍵正則化パラメータである体重減衰の役割に着目した。
系統的な実験を通して、より大きい重量減衰値で訓練されたモデルはよりプラスチックであり、下流タスクで微調整された場合、より大きな性能向上を示す。
この現象は、事前訓練後のベースモデルは微調整後のパフォーマンスが良くなるという、直感的なトレードオフにつながる可能性がある。
モデル行動に対する重量減衰の力学効果のさらなる研究により、線形分離可能な表現を奨励し、注意行列を規則化し、トレーニングデータへの過度な適合を減少させることが明らかとなった。
本研究は,ハイパーパラメータ最適化において,クロスエントロピー損失を超える評価指標を用いることの重要性を示し,単一最適化ハイパーパラメータがモデル形状に果たす多面的役割に光を当てるものである。
関連論文リスト
- High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。
18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文 参考訳(メタデータ) (2024-08-13T06:28:43Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。