論文の概要: Decoupled Relative Learning Rate Schedules
- arxiv url: http://arxiv.org/abs/2507.03526v1
- Date: Fri, 04 Jul 2025 12:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.763212
- Title: Decoupled Relative Learning Rate Schedules
- Title(参考訳): 分離された相対的学習率スケジューリング
- Authors: Jan Ludziejewski, Jan Małaśnicki, Maciej Pióro, Michał Krutul, Kamil Ciebiera, Maciej Stefaniak, Jakub Krajewski, Piotr Sankowski, Marek Cygan, Kamil Adamczewski, Sebastian Jaszczur,
- Abstract要約: トランスフォーマーモデルにおいて、異なるコンポーネントの重みの学習率を調整することで、LLMトレーニングを最適化するための新しいアプローチを導入する。
導入した相対学習率RLRSは,学習過程を最大で23%高速化する。
- 参考スコア(独自算出の注目度): 4.34286535607654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a novel approach for optimizing LLM training by adjusting learning rates across weights of different components in Transformer models. Traditional methods often apply a uniform learning rate across all network layers, potentially overlooking the unique dynamics of each part. Remarkably, our introduced relative learning rates, RLRS, method accelerates the training process by up to $23\%$, particularly in complex models such as Mixture of Experts (MoE). Hyperparameters of RLRS can be efficiently tuned on smaller models and then effectively reused on models up to $27\times$ larger. This simple and effective method results in a substantial reduction in training time and computational resources, offering a practical and scalable solution for optimizing large-scale neural networks.
- Abstract(参考訳): 本研究では,トランスフォーマーモデルにおいて,異なるコンポーネントの重みをまたいだ学習率を調整することで,LLMトレーニングを最適化するための新しいアプローチを提案する。
従来の手法では、全てのネットワーク層に一様学習率を適用し、各部分のユニークなダイナミクスを見下ろしている可能性がある。
特にMixture of Experts (MoE) のような複雑なモデルでは,我々の導入した相対学習率であるRLRSは,トレーニングプロセスを最大2,3 %まで高速化する。
RLRSのハイパーパラメータは、より小さなモデルで効率よく調整でき、それから最大27ドル以上のモデルで効果的に再利用できる。
このシンプルで効果的な方法は、トレーニング時間と計算資源を大幅に削減し、大規模ニューラルネットワークを最適化するための実用的でスケーラブルなソリューションを提供する。
関連論文リスト
- AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - Multiscale Training of Convolutional Neural Networks [6.805997961535213]
高解像度画像上での畳み込みニューラルネットワーク(CNN)のトレーニングは、最も優れたメッシュ上の損失の勾配を評価するコストによってボトルネックとなることが多い。
本稿では,モンテカルロにインスパイアされたマルチレベル・マルチスケール・グラディエント推定法 (MGE) を提案する。
さらに、粗いメッシュの学習問題を最初に解き、次の細かいレベルを“ホットスタート”し、必要な微細メッシュを桁違いに削減するフルマルチスケールトレーニングアルゴリズムにMGEを組み込む。
論文 参考訳(メタデータ) (2025-01-22T09:13:47Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。