Fugu-MT 論文翻訳(概要): Weight Decay Improves Language Model Plasticity

論文の概要: Weight Decay Improves Language Model Plasticity

arxiv url: http://arxiv.org/abs/2602.11137v1
Date: Wed, 11 Feb 2026 18:49:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-12 21:44:02.337445
Title: Weight Decay Improves Language Model Plasticity
Title（参考訳）: 軽量化により言語モデルの可塑性が向上
Authors: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade,
Abstract要約: 本研究では, モデル可塑性の観点から, ベースモデルが下流タスクに適応する能力について検討する。より大きい重量減衰値で訓練されたモデルは、よりプラスチックであり、下流タスクで微調整された場合、より大きな性能向上を示す。
参考スコア（独自算出の注目度）: 9.005013915262658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.
Abstract（参考訳）: 大規模言語モデル(LLM)開発における一般的なパラダイムは、ベースモデルを事前訓練し、パフォーマンスとモデルの振る舞いを改善するためのさらなるトレーニングを実行することである。しかし、ハイパーパラメータ最適化とスケーリング法則は主に、下流適応性を無視したベースモデルのバリデーション損失の観点から研究されている。本研究では, モデル可塑性の観点から, ベースモデルが細調整により下流タスクに適応する能力について, 事前学習を行った。本研究は,事前学習における鍵正則化パラメータである体重減衰の役割に着目した。系統的な実験を通して、より大きい重量減衰値で訓練されたモデルはよりプラスチックであり、下流タスクで微調整された場合、より大きな性能向上を示す。この現象は、事前訓練後のベースモデルは微調整後のパフォーマンスが良くなるという、直感的なトレードオフにつながる可能性がある。モデル行動に対する重量減衰の力学効果のさらなる研究により、線形分離可能な表現を奨励し、注意行列を規則化し、トレーニングデータへの過度な適合を減少させることが明らかとなった。本研究は,ハイパーパラメータ最適化において,クロスエントロピー損失を超える評価指標を用いることの重要性を示し,単一最適化ハイパーパラメータがモデル形状に果たす多面的役割に光を当てるものである。

関連論文リスト

High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。 LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文参考訳（メタデータ） (2024-11-13T08:56:35Z)
Optimizing importance weighting in the presence of sub-population shifts [0.0]
トレーニングデータとテストデータの間の分散シフトは、機械学習モデルの性能を著しく損なう可能性がある。トレーニングデータの有限標本サイズによる推定モデルのばらつきの増大を無視するため,既存の重み付けは準最適であると主張する。重みとモデルパラメータを同時に最適化する二段階最適化手法を提案する。
論文参考訳（メタデータ） (2024-10-18T09:21:10Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。 18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文参考訳（メタデータ） (2024-08-13T06:28:43Z)
TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文参考訳（メタデータ） (2024-06-25T04:01:32Z)
Enhancing Dynamical System Modeling through Interpretable Machine Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文参考訳（メタデータ） (2024-01-16T14:58:21Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。