Fugu-MT 論文翻訳(概要): $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers

論文の概要: $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers

arxiv url: http://arxiv.org/abs/2406.00153v1
Date: Fri, 31 May 2024 19:28:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 08:23:47.955398
Title: $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers
Title（参考訳）: $μ$LO:学習オプティマイザの計算効率の良いメタ一般化
Authors: Benjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky,
Abstract要約: 学習(LO)は、ニューラルネットワークのウォールクロックトレーニング時間を著しく短縮することができる。 LOは、特にメタトレーニング中に見られるものよりも大きなトレーニングネットワークの場合、しばしばメタ汎用性の低下に悩まされる。我々は最近提案された最大更新パラメトリゼーション(mu$P)を使ってこの問題に対処する。
参考スコア（独自算出の注目度）: 25.696858394747252
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learned optimizers (LOs) can significantly reduce the wall-clock training time of neural networks, substantially reducing training costs. However, they often suffer from poor meta-generalization, especially when training networks larger than those seen during meta-training. To address this, we use the recently proposed Maximal Update Parametrization ($\mu$P), which allows zero-shot generalization of optimizer hyperparameters from smaller to larger models. We extend $\mu$P theory to learned optimizers, treating the meta-training problem as finding the learned optimizer under $\mu$P. Our evaluation shows that LOs meta-trained with $\mu$P substantially improve meta-generalization as compared to LOs trained under standard parametrization (SP). Notably, when applied to large-width models, our best $\mu$LO, trained for 103 GPU-hours, matches or exceeds the performance of VeLO, the largest publicly available learned optimizer, meta-trained with 4000 TPU-months of compute. Moreover, $\mu$LOs demonstrate better generalization than their SP counterparts to deeper networks and to much longer training horizons (25 times longer) than those seen during meta-training.
Abstract（参考訳）: 学習オプティマイザ(LO)はニューラルネットワークのウォールクロックトレーニング時間を著しく短縮し、トレーニングコストを大幅に削減する。しかし、メタ汎用性に乏しい場合が多く、特にメタトレーニングで見られるものよりもトレーニングネットワークが大きい場合である。これを解決するために、我々は最近提案された最大更新パラメトリゼーション($\mu$P)を使用し、より小さなモデルからより大規模なモデルへの最適化ハイパーパラメータのゼロショット一般化を可能にする。我々は、学習オプティマイザに$\mu$P理論を拡張し、メタトレーニング問題を、学習オプティマイザを$\mu$Pの下で見つけるものとして扱う。評価の結果,$\mu$Pで訓練したLOは,標準パラメトリゼーション(SP)で訓練したLOと比較して,メタジェネリゼーションを大幅に改善した。特に、大容量モデルに適用した場合、最高の$\mu$LOは103GPU時間でトレーニングされ、4000TPUヶ月の計算でメタトレーニングされた、最大規模の学習オプティマイザであるVeLOのパフォーマンスにマッチまたは超過します。さらに、$\mu$LOsはSPのより深いネットワークへの一般化を示し、メタトレーニングで見られるものよりもはるかに長い水平線(25倍)を訓練する。

関連論文リスト

Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Learning Versatile Optimizers on a Compute Diet [20.69804303768643]
学習アーキテクチャやメタトレーニングの手順における重要な要素は、強力なメタ一般化につながる可能性がある。そこで本稿では,評価課題のセットに基づいて,大規模システムの定量的性能を確実に評価するための評価指標を提案する。提案手法であるCeloは,学習者のメタ一般化性能向上に大きく貢献する。
論文参考訳（メタデータ） (2025-01-22T06:10:27Z)
Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。しかし、二階法の一般化特性についてはいまだ議論が続いている。我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文参考訳（メタデータ） (2024-11-12T17:58:40Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。 CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。 CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文参考訳（メタデータ） (2024-05-23T09:52:15Z)
FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。 i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文参考訳（メタデータ） (2024-05-02T03:43:19Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを介してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$に比べて長期で累積報酬が大きくなる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューションタスクをより一般化することを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
Learning to Generalize Provably in Learning to Optimize [185.71326306329678]
最適化学習(L2O)は、データ駆動アプローチによる最適化設計を自動化することで、人気が高まっている。現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。我々はこの2つのメトリクスを平坦性を考慮した正規化器としてL2Oフレームワークに組み込むことを提案する。
論文参考訳（メタデータ） (2023-02-22T01:17:31Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文参考訳（メタデータ） (2022-06-07T13:24:00Z)
Accelerating Gradient-based Meta Learner [2.1349209400003932]
我々は,MAML (Model Agnostic Meta Learning) などのメタ学習アルゴリズムを高速化する様々なアクセラレーション手法を提案する。本稿では,メタ学習プロセスの高速化だけでなく,モデルの精度向上にも寄与する,クラスタ内でのトレーニングタスクの新たな方法を提案する。
論文参考訳（メタデータ） (2021-10-27T14:27:36Z)
Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文参考訳（メタデータ） (2021-04-30T16:19:07Z)
Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。人口ベーストレーニングの形式は、この自己学習の組織化に使用される。このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文参考訳（メタデータ） (2021-01-14T19:07:17Z)
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文参考訳（メタデータ） (2020-09-23T16:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。