論文の概要: Variance Control via Weight Rescaling in LLM Pre-training
- arxiv url: http://arxiv.org/abs/2503.17500v1
- Date: Fri, 21 Mar 2025 19:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:40:03.628203
- Title: Variance Control via Weight Rescaling in LLM Pre-training
- Title(参考訳): LLMプレトレーニングにおけるウェイトリスケーリングによる分散制御
- Authors: Louis Owen, Abhay Kumar, Nilabhra Roy Chowdhury, Fabian Güra,
- Abstract要約: 本稿では,Layer Index RescalingスキームとTVR(Target Variance Rescaling)分散制御戦略を紹介する。
1BパラメータLLaMAモデルによる実験により、これらの手法による分散管理により、下流タスク性能が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 0.3574867616159909
- License:
- Abstract: The outcome of Large Language Model (LLM) pre-training strongly depends on weight initialization and variance control strategies. Although the importance of initial variance control has been well documented in neural networks in general, the literature on initialization and management of its growth during LLM pre-training, specifically, is somewhat sparse. In this paper, we introduce the Layer Index Rescaling (LIR) weight initialization scheme, and the Target Variance Rescaling (TVR) variance control strategy. Experiments on a 1B parameter LLaMA model demonstrate that better variance management using these techniques yields substantial improvements in downstream task performance (up to 4.6% on common pre-training benchmarks) and reduces extreme activation values, thus mitigating challenges associated with quantization and low-precision training. Our code is available at: https://github.com/bluorion-com/weight_rescaling.
- Abstract(参考訳): 大規模言語モデル(LLM)の事前学習の結果は、重み付け初期化と分散制御戦略に大きく依存する。
初期分散制御の重要性は一般にニューラルネットワークでよく記録されているが、LLM事前学習中の成長の初期化と管理に関する文献は、特にわずかである。
本稿では,LIR(Layer Index Rescaling)重み初期化スキームとTVR(Target Variance Rescaling)分散制御戦略を紹介する。
1BパラメータLLaMAモデルによる実験では、これらの手法による分散管理により、ダウンストリームタスクのパフォーマンスが大幅に改善され(一般的な事前トレーニングベンチマークでは4.6%)、極端なアクティベーション値が低減され、量子化や低精度トレーニングに関連する課題が軽減される。
私たちのコードは、https://github.com/bluorion-com/weight_rescaling.comで利用可能です。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models [33.4538652558253]
低ランク適応(LoRA)は、低ランク行列による更新を近似することにより、微調整された大言語モデル(LLM)の計算とメモリ要求を減らす。
本稿では,事前学習した重みの行列積演算子(MPO)分解を利用した重み分解適応(DoTA)を提案する。
また、4ビット量子化用に設計されたDoTAの量子化バージョンであるQDoTAを紹介する。
論文 参考訳(メタデータ) (2024-12-30T12:00:47Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。