論文の概要: $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers
- arxiv url: http://arxiv.org/abs/2406.00153v1
- Date: Fri, 31 May 2024 19:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:23:47.955398
- Title: $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers
- Title(参考訳): $μ$LO:学習オプティマイザの計算効率の良いメタ一般化
- Authors: Benjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky,
- Abstract要約: 学習(LO)は、ニューラルネットワークのウォールクロックトレーニング時間を著しく短縮することができる。
LOは、特にメタトレーニング中に見られるものよりも大きなトレーニングネットワークの場合、しばしばメタ汎用性の低下に悩まされる。
我々は最近提案された最大更新パラメトリゼーション(mu$P)を使ってこの問題に対処する。
- 参考スコア(独自算出の注目度): 25.696858394747252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned optimizers (LOs) can significantly reduce the wall-clock training time of neural networks, substantially reducing training costs. However, they often suffer from poor meta-generalization, especially when training networks larger than those seen during meta-training. To address this, we use the recently proposed Maximal Update Parametrization ($\mu$P), which allows zero-shot generalization of optimizer hyperparameters from smaller to larger models. We extend $\mu$P theory to learned optimizers, treating the meta-training problem as finding the learned optimizer under $\mu$P. Our evaluation shows that LOs meta-trained with $\mu$P substantially improve meta-generalization as compared to LOs trained under standard parametrization (SP). Notably, when applied to large-width models, our best $\mu$LO, trained for 103 GPU-hours, matches or exceeds the performance of VeLO, the largest publicly available learned optimizer, meta-trained with 4000 TPU-months of compute. Moreover, $\mu$LOs demonstrate better generalization than their SP counterparts to deeper networks and to much longer training horizons (25 times longer) than those seen during meta-training.
- Abstract(参考訳): 学習オプティマイザ(LO)はニューラルネットワークのウォールクロックトレーニング時間を著しく短縮し、トレーニングコストを大幅に削減する。
しかし、メタ汎用性に乏しい場合が多く、特にメタトレーニングで見られるものよりもトレーニングネットワークが大きい場合である。
これを解決するために、我々は最近提案された最大更新パラメトリゼーション($\mu$P)を使用し、より小さなモデルからより大規模なモデルへの最適化ハイパーパラメータのゼロショット一般化を可能にする。
我々は、学習オプティマイザに$\mu$P理論を拡張し、メタトレーニング問題を、学習オプティマイザを$\mu$Pの下で見つけるものとして扱う。
評価の結果,$\mu$Pで訓練したLOは,標準パラメトリゼーション(SP)で訓練したLOと比較して,メタジェネリゼーションを大幅に改善した。
特に、大容量モデルに適用した場合、最高の$\mu$LOは103GPU時間でトレーニングされ、4000TPUヶ月の計算でメタトレーニングされた、最大規模の学習オプティマイザであるVeLOのパフォーマンスにマッチまたは超過します。
さらに、$\mu$LOsはSPのより深いネットワークへの一般化を示し、メタトレーニングで見られるものよりもはるかに長い水平線(25倍)を訓練する。
関連論文リスト
- CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。
CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。
CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文 参考訳(メタデータ) (2024-05-23T09:52:15Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Learning to Generalize Provably in Learning to Optimize [185.71326306329678]
最適化学習(L2O)は、データ駆動アプローチによる最適化設計を自動化することで、人気が高まっている。
現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。
我々はこの2つのメトリクスを平坦性を考慮した正規化器としてL2Oフレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-02-22T01:17:31Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Accelerating Gradient-based Meta Learner [2.1349209400003932]
我々は,MAML (Model Agnostic Meta Learning) などのメタ学習アルゴリズムを高速化する様々なアクセラレーション手法を提案する。
本稿では,メタ学習プロセスの高速化だけでなく,モデルの精度向上にも寄与する,クラスタ内でのトレーニングタスクの新たな方法を提案する。
論文 参考訳(メタデータ) (2021-10-27T14:27:36Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z) - Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。
人口ベーストレーニングの形式は、この自己学習の組織化に使用される。
このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文 参考訳(メタデータ) (2021-01-14T19:07:17Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。