論文の概要: Learning Versatile Optimizers on a Compute Diet
- arxiv url: http://arxiv.org/abs/2501.12670v1
- Date: Wed, 22 Jan 2025 06:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:04.123294
- Title: Learning Versatile Optimizers on a Compute Diet
- Title(参考訳): コンピュータダイエットにおけるVersatile Optimizerの学習
- Authors: Abhinav Moudgil, Boris Knyazev, Guillaume Lajoie, Eugene Belilovsky,
- Abstract要約: 学習アーキテクチャやメタトレーニングの手順における重要な要素は、強力なメタ一般化につながる可能性がある。
そこで本稿では,評価課題のセットに基づいて,大規模システムの定量的性能を確実に評価するための評価指標を提案する。
提案手法であるCeloは,学習者のメタ一般化性能向上に大きく貢献する。
- 参考スコア(独自算出の注目度): 20.69804303768643
- License:
- Abstract: Learned optimization has emerged as a promising alternative to hand-crafted optimizers, with the potential to discover stronger learned update rules that enable faster, hyperparameter-free training of neural networks. A critical element for practically useful learned optimizers, that can be used off-the-shelf after meta-training, is strong meta-generalization: the ability to apply the optimizers to new tasks. Recent state-of-the-art work in learned optimizers, VeLO (Metz et al., 2022), requires a large number of highly diverse meta-training tasks along with massive computational resources, 4000 TPU months, to achieve meta-generalization. This makes further improvements to such learned optimizers impractical. In this work, we identify several key elements in learned optimizer architectures and meta-training procedures that can lead to strong meta-generalization. We also propose evaluation metrics to reliably assess quantitative performance of an optimizer at scale on a set of evaluation tasks. Our proposed approach, Celo, makes a significant leap in improving the meta-generalization performance of learned optimizers and also outperforms tuned state-of-the-art optimizers on a diverse set of out-of-distribution tasks, despite being meta-trained for just 24 GPU hours.
- Abstract(参考訳): 学習された最適化は、手作りのオプティマイザに代わる有望な代替手段として現れており、ニューラルネットワークの高速でハイパーパラメータフリーなトレーニングを可能にする、より強力な学習された更新ルールを発見する可能性がある。
メタトレーニングの後に棚外で使用できる実用的な学習オプティマイザにとって重要な要素は、強力なメタ一般化である。
学習オプティマイザのVeLO (Metz et al , 2022) における最近の最先端の研究は、多種多様なメタトレーニングタスクと大量の計算資源、4000 TPU ヶ月を必要とする。
これにより、学習したオプティマイザをさらに改善することが可能になる。
本研究では,学習した最適化アーキテクチャとメタトレーニング手順において,強力なメタ一般化をもたらすいくつかの重要な要素を同定する。
また,評価タスクのセットに基づいて,大規模に最適化器の定量的性能を確実に評価する評価指標を提案する。
提案するアプローチであるCeloは,学習したオプティマイザのメタ一般化性能の向上に大きく貢献すると同時に,24GPU時間のみメタトレーニングされているにも関わらず,さまざまなアウト・オブ・ディストリビューションタスクにおいて,チューニング済みのオプティマイザよりも優れたパフォーマンスを実現している。
関連論文リスト
- Narrowing the Focus: Learned Optimizers for Pretrained Models [24.685918556547055]
本稿では,一連の基本作業タスクによって提供される更新方向の階層固有の線形結合を学習する手法を提案する。
画像上で評価すると、これはAdamのような従来の既成の方法と既存の一般的な学習の両方で著しく優れています。
論文 参考訳(メタデータ) (2024-08-17T23:55:19Z) - HUB: Guiding Learned Optimizers with Continuous Prompt Tuning [45.662334160254176]
学習はメタ学習の重要な要素である。
スケーラブルな学習の最近の進歩は、様々なタスクにおいて手作業よりも優れたパフォーマンスを示している。
本稿では,スケーラブルな学習における一般化問題に対処するため,ハイブリッド更新ベース(HUB)最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T11:08:20Z) - Learning to Generalize Provably in Learning to Optimize [185.71326306329678]
最適化学習(L2O)は、データ駆動アプローチによる最適化設計を自動化することで、人気が高まっている。
現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。
我々はこの2つのメトリクスを平坦性を考慮した正規化器としてL2Oフレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-02-22T01:17:31Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - A Closer Look at Learned Optimization: Stability, Robustness, and
Inductive Biases [44.01339030872185]
ブラックボックスは、しばしば、メタトレーニングセットのタスクと異なり、安定性と一般化に苦しむ。
最適化アルゴリズムの帰納バイアスと安定性特性について検討し、結果として得られる知見をブラックボックスの帰納バイアスの設計に適用する。
私たちはさまざまなニューラルネットワークトレーニングタスクを学び、そこで学んだ技術の現状を上回ります。
論文 参考訳(メタデータ) (2022-09-22T17:47:21Z) - Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。
人口ベーストレーニングの形式は、この自己学習の組織化に使用される。
このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文 参考訳(メタデータ) (2021-01-14T19:07:17Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。