論文の概要: $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers
- arxiv url: http://arxiv.org/abs/2406.00153v2
- Date: Fri, 11 Oct 2024 21:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:01:38.542246
- Title: $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers
- Title(参考訳): $μ$LO:学習オプティマイザの計算効率の良いメタ一般化
- Authors: Benjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky,
- Abstract要約: 学習(LO)は、ニューラルネットワークのウォールクロックトレーニング時間を著しく短縮することができる。
彼らは、メタトレーニングで見られるものよりもはるかに大きなトレーニングネットワークにおいて、目に見えないタスク(メタ一般化)を最適化するのに苦労する。
我々は$mu$-パラメータ化LOに対する簡単なメタトレーニングレシピを提案する。
- 参考スコア(独自算出の注目度): 25.696858394747252
- License:
- Abstract: Learned optimizers (LOs) can significantly reduce the wall-clock training time of neural networks, substantially reducing training costs. However, they can struggle to optimize unseen tasks (meta-generalize), especially when training networks much larger than those seen during meta-training. To address this, we derive the Maximal Update Parametrization ($\mu$P) for two popular learned optimizer architectures and propose a simple meta-training recipe for $\mu$-parameterized LOs ($\mu$LOs). Our empirical evaluation demonstrates that LOs meta-trained with our recipe substantially improve meta-generalization to wider unseen tasks when compared to LOs trained under standard parametrization (e.g., as they are trained in existing work). When applying our $\mu$LOs, each trained for less than 250 GPU-hours, to large-width models we are often able to match or exceed the performance of pre-trained VeLO, the most performant publicly available learned optimizer, meta-trained with 4000 TPU-months of compute. We also observe that learned optimizers trained with our $\mu$LO recipe also exhibit substantially improved meta-generalization to deeper networks ($5\times$ meta-training) and remarkable generalization to much longer training horizons ($25\times$ meta-training).
- Abstract(参考訳): 学習オプティマイザ(LO)はニューラルネットワークのウォールクロックトレーニング時間を著しく短縮し、トレーニングコストを大幅に削減する。
しかし、特にトレーニングネットワークがメタトレーニングで見られるものよりもはるかに大きい場合、彼らは目に見えないタスク(メタ一般化)を最適化するのに苦労する。
これを解決するために、人気のある2つのオプティマイザアーキテクチャの最大更新パラメトリゼーション(\mu$P)を導出し、単純なメタトレーニングレシピを$\mu$-parameterized LOs(\mu$LOs)に提案する。
我々の経験的評価は,我々のレシピで訓練されたLOは,標準的なパラメトリゼーションで訓練されたLO(例えば,既存の作業で訓練されたLO)と比較して,より広範な未確認タスクに対するメタジェネリゼーションを大幅に改善することを示した。
250ドル以下でトレーニングされた$\mu$LOsを、トレーニング済みのVeLOのパフォーマンスにマッチまたは超える大容量モデルに適用する場合、最もパフォーマンスの高い学習オプティマイザであるVeLOは、4000 TPU-月毎の計算でメタトレーニングされています。
また、この$\mu$LOレシピでトレーニングされた学習オプティマイザは、より深いネットワークへのメタ一般化(5\times$ meta-training)と、はるかに長いトレーニング地平線(25\times$ meta-training)への顕著な一般化(25\times$ meta-training)も大きく改善されている。
関連論文リスト
- CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。
CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。
CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文 参考訳(メタデータ) (2024-05-23T09:52:15Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Learning to Generalize Provably in Learning to Optimize [185.71326306329678]
最適化学習(L2O)は、データ駆動アプローチによる最適化設計を自動化することで、人気が高まっている。
現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。
我々はこの2つのメトリクスを平坦性を考慮した正規化器としてL2Oフレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-02-22T01:17:31Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Accelerating Gradient-based Meta Learner [2.1349209400003932]
我々は,MAML (Model Agnostic Meta Learning) などのメタ学習アルゴリズムを高速化する様々なアクセラレーション手法を提案する。
本稿では,メタ学習プロセスの高速化だけでなく,モデルの精度向上にも寄与する,クラスタ内でのトレーニングタスクの新たな方法を提案する。
論文 参考訳(メタデータ) (2021-10-27T14:27:36Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z) - Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。
人口ベーストレーニングの形式は、この自己学習の組織化に使用される。
このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文 参考訳(メタデータ) (2021-01-14T19:07:17Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。