Fugu-MT 論文翻訳(概要): Optimization Hyper-parameter Laws for Large Language Models

論文の概要: Optimization Hyper-parameter Laws for Large Language Models

arxiv url: http://arxiv.org/abs/2409.04777v1
Date: Sat, 7 Sep 2024 09:37:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 20:41:31.923743
Title: Optimization Hyper-parameter Laws for Large Language Models
Title（参考訳）: 大規模言語モデルに対する最適化ハイパーパラメータ法則
Authors: Xingyu Xie, Kuangyu Ding, Shuicheng Yan, Kim-Chuan Toh, Tianwen Wei,
Abstract要約: ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
参考スコア（独自算出の注目度）: 52.49860340549727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models have driven significant AI advancements, yet their training is resource-intensive and highly sensitive to hyper-parameter selection. While scaling laws provide valuable guidance on model size and data requirements, they fall short in choosing dynamic hyper-parameters, such as learning-rate (LR) schedules, that evolve during training. To bridge this gap, we present Optimization Hyper-parameter Laws (Opt-Laws), a framework that effectively captures the relationship between hyper-parameters and training outcomes, enabling the pre-selection of potential optimal schedules. Grounded in stochastic differential equations, Opt-Laws introduce novel mathematical interpretability and offer a robust theoretical foundation for some popular LR schedules. Our extensive validation across diverse model sizes and data scales demonstrates Opt-Laws' ability to accurately predict training loss and identify optimal LR schedule candidates in pre-training, continual training, and fine-tuning scenarios. This approach significantly reduces computational costs while enhancing overall model performance.
Abstract（参考訳）: 大規模言語モデルは、AIの大幅な進歩を推進してきたが、そのトレーニングはリソース集約的で、ハイパーパラメータの選択に非常に敏感である。スケーリング法則は、モデルのサイズとデータ要件に関する貴重なガイダンスを提供するが、トレーニング中に進化する学習速度(LR)スケジュールのような動的ハイパーパラメータの選択には不足している。このギャップを埋めるために、最適化ハイパーパラメータ法(Opt-Laws)を提案する。これは、ハイパーパラメータとトレーニング結果の関係を効果的に把握し、潜在的に最適なスケジュールの選択を可能にするフレームワークである。確率微分方程式に基づいて、Opt-Lawsは、新しい数学的解釈可能性を導入し、いくつかの人気LRスケジュールに対する堅牢な理論的基盤を提供する。様々なモデルサイズとデータスケールにわたる広範な検証は、トレーニング損失を正確に予測し、トレーニング前、継続トレーニング、微調整シナリオにおいて最適なLRスケジュール候補を特定できるOpt-Lawsの能力を示している。このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。

関連論文リスト

Configuration-to-Performance Scaling Law with Neural Ansatz [19.686833161453464]
textitConfiguration-to-Performance Scaling Law (CPL)を学習する CPLはトレーニング設定が最終トレーニング前損失にどのように影響するかを正確に予測する。設定に依存しないチンチラ法よりも20～40%低い予測誤差を達成している。
論文参考訳（メタデータ） (2026-02-10T21:16:59Z)
High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文参考訳（メタデータ） (2026-01-08T15:55:13Z)
Scaling and Transferability of Annealing Strategies in Large Language Model Training [59.443651879173025]
我々はWarmup-Steady-Decay (WSD)スケジューラのアニーリング戦略を最適化するための予測フレームワークを改良する。改良されたフレームワークは、トレーニングステップ、最大学習率、アニール動作を取り入れ、学習率スケジュールのより効率的な最適化を可能にする。我々は,Dense と Mixture-of-Experts (MoE) モデルを用いて実験を行った。
論文参考訳（メタデータ） (2025-12-05T16:38:33Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文参考訳（メタデータ） (2025-07-24T01:09:25Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文参考訳（メタデータ） (2024-10-29T17:24:18Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。 Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文参考訳（メタデータ） (2024-07-28T19:18:59Z)
On Optimizing Hyperparameters for Quantum Neural Networks [0.5999777817331317]
現在の最先端の機械学習モデルは、トレーニングに数週間を要する。量子コンピューティング、特に量子機械学習(QML)は、理論的なスピードアップと強化されたパワーを提供する。
論文参考訳（メタデータ） (2024-03-27T13:59:09Z)
End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:33:35Z)
On the Robustness of Decision-Focused Learning [0.0]
決定焦点学習(Decision-Focused Learning, DFL)は、機械学習(ML)モデルを訓練し、不完全な最適化問題の欠落パラメータを予測するための新興学習パラダイムである。 DFLは、予測と最適化タスクを統合することで、エンドツーエンドシステムでMLモデルをトレーニングし、トレーニングとテストの目的の整合性を向上させる。
論文参考訳（メタデータ） (2023-11-28T04:34:04Z)
Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文参考訳（メタデータ） (2023-09-15T16:29:27Z)
Optimization-Derived Learning with Essential Convergence Analysis of Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。 GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文参考訳（メタデータ） (2022-06-16T01:50:25Z)
Scalable One-Pass Optimisation of High-Dimensional Weight-Update Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。トレーニングは1回のみであり、再スタートは行わない。また、真の過次性への収束を動機づける議論も提供する。
論文参考訳（メタデータ） (2021-10-20T09:57:57Z)
Multi-level Training and Bayesian Optimization for Economical Hyperparameter Optimization [12.92634461859467]
本稿では,ハイパーパラメータ最適化に必要なトレーニング時間の総量を削減するための効果的な手法を開発する。光のトレーニングによって生じる近似的な性能測定をキャリブレーションするために, トランキャット付加法ガウス過程モデルを提案する。このモデルに基づいて、逐次モデルに基づくアルゴリズムが開発され、構成空間のパフォーマンスプロファイルを生成し、最適なモデルを見つける。
論文参考訳（メタデータ） (2020-07-20T09:03:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。