論文の概要: Optimization Hyper-parameter Laws for Large Language Models
- arxiv url: http://arxiv.org/abs/2409.04777v2
- Date: Sun, 27 Oct 2024 07:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 22:49:49.462482
- Title: Optimization Hyper-parameter Laws for Large Language Models
- Title(参考訳): 大規模言語モデルに対する最適化ハイパーパラメータ法則
- Authors: Xingyu Xie, Shuicheng Yan, Kim-Chuan Toh, Tianwen Wei,
- Abstract要約: ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 56.322914260197734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have driven significant AI advancements, yet their training is resource-intensive and highly sensitive to hyper-parameter selection. While scaling laws provide valuable guidance on model size and data requirements, they fall short in choosing dynamic hyper-parameters, such as learning-rate (LR) schedules, that evolve during training. To bridge this gap, we present Optimization Hyper-parameter Laws (Opt-Laws), a framework that effectively captures the relationship between hyper-parameters and training outcomes, enabling the pre-selection of potential optimal schedules. Grounded in stochastic differential equations, Opt-Laws introduce novel mathematical interpretability and offer a robust theoretical foundation for some popular LR schedules. Our extensive validation across diverse model sizes and data scales demonstrates Opt-Laws' ability to accurately predict training loss and identify optimal LR schedule candidates in pre-training, continual training, and fine-tuning scenarios. This approach significantly reduces computational costs while enhancing overall model performance.
- Abstract(参考訳): 大規模言語モデルは、AIの大幅な進歩を推進してきたが、そのトレーニングはリソース集約的で、ハイパーパラメータの選択に非常に敏感である。
スケーリング法則は、モデルのサイズとデータ要件に関する貴重なガイダンスを提供するが、トレーニング中に進化する学習速度(LR)スケジュールのような動的ハイパーパラメータの選択には不足している。
このギャップを埋めるために、最適化ハイパーパラメータ法(Opt-Laws)を提案する。これは、ハイパーパラメータとトレーニング結果の関係を効果的に把握し、潜在的に最適なスケジュールの選択を可能にするフレームワークである。
確率微分方程式に基づいて、Opt-Lawsは、新しい数学的解釈可能性を導入し、いくつかの人気LRスケジュールに対する堅牢な理論的基盤を提供する。
様々なモデルサイズとデータスケールにわたる広範な検証は、トレーニング損失を正確に予測し、トレーニング前、継続トレーニング、微調整シナリオにおいて最適なLRスケジュール候補を特定できるOpt-Lawsの能力を示している。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
関連論文リスト
- Scaling Laws for Differentially Private Language Models [53.14592585413073]
スケーリング法則は、大規模言語モデル(LLM)トレーニングの重要なコンポーネントとして現れ、スケールによるパフォーマンス向上を予測することができる。
LLMは(時にはセンシティブな)ユーザデータから得られるような、大規模で高品質なトレーニングデータセットに依存しています。
この機密性の高いユーザーデータのトレーニングモデルは、差分プライバシー(DP)のような慎重なプライバシー保護を必要とする
論文 参考訳(メタデータ) (2025-01-31T06:32:46Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - On Optimizing Hyperparameters for Quantum Neural Networks [0.5999777817331317]
現在の最先端の機械学習モデルは、トレーニングに数週間を要する。
量子コンピューティング、特に量子機械学習(QML)は、理論的なスピードアップと強化されたパワーを提供する。
論文 参考訳(メタデータ) (2024-03-27T13:59:09Z) - On the Robustness of Decision-Focused Learning [0.0]
決定焦点学習(Decision-Focused Learning, DFL)は、機械学習(ML)モデルを訓練し、不完全な最適化問題の欠落パラメータを予測するための新興学習パラダイムである。
DFLは、予測と最適化タスクを統合することで、エンドツーエンドシステムでMLモデルをトレーニングし、トレーニングとテストの目的の整合性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T04:34:04Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - Multi-level Training and Bayesian Optimization for Economical
Hyperparameter Optimization [12.92634461859467]
本稿では,ハイパーパラメータ最適化に必要なトレーニング時間の総量を削減するための効果的な手法を開発する。
光のトレーニングによって生じる近似的な性能測定をキャリブレーションするために, トランキャット付加法ガウス過程モデルを提案する。
このモデルに基づいて、逐次モデルに基づくアルゴリズムが開発され、構成空間のパフォーマンスプロファイルを生成し、最適なモデルを見つける。
論文 参考訳(メタデータ) (2020-07-20T09:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。