論文の概要: Celo2: Towards Learned Optimization Free Lunch
- arxiv url: http://arxiv.org/abs/2602.19142v1
- Date: Sun, 22 Feb 2026 12:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.502293
- Title: Celo2: Towards Learned Optimization Free Lunch
- Title(参考訳): Celo2: 学習した最適化フリーランチを目指して
- Authors: Abhinav Moudgil, Boris Knyazev, Eugene Belilovsky,
- Abstract要約: 単純な正規化アーキテクチャの構築とメタトレーニングの強化により、パフォーマンスの高い汎用的な学習更新ルールをメタトレーニングすることは可能になった。
我々の学習した更新規則は、そのメタトレーニング分布よりも6桁大きい10億規模の事前訓練タスク(GPT-3 XL 1.3B 1.3)に安定してスケールする。
- 参考スコア(独自算出の注目度): 18.43722869300503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned optimizers are powerful alternatives to hand-designed update rules like Adam, yet they have seen limited practical adoption since they often fail to meta-generalize beyond their training distribution and incur high meta-training cost. For instance, prior work, VeLO, scaled meta-training to 4,000 TPU months ($\sim$10$\times$ GPT-3 compute) to meta-train a general-purpose optimizer but it failed to generalize beyond 600M parameters tasks. In this work, we present a surprising finding: by crafting a simple normalized optimizer architecture and augmenting meta-training, it becomes feasible to meta-train a performant general-purpose learned update rule on a tiny fraction of VeLO compute, 4.5 GPU hours to be precise. Our learned update rule scales stably to a billion-scale pretraining task (GPT-3 XL 1.3B) which is six orders of magnitude larger than its meta-training distribution. Furthermore, it shows strong performance across diverse out-of-distribution tasks and is compatible with modern optimization harness that includes orthogonalization, distinct update rules for input-output and hidden weights, and decoupled weight decay. In all, this work paves the way for practically applicable learnable optimization algorithms, unlocking exploration of richer meta-training and data curation recipes to further improve performance.
- Abstract(参考訳): 学習されたオプティマイザは、Adamのような手作業で設計した更新ルールの強力な代替手段だが、トレーニングディストリビューション以上のメタ汎用化に失敗することが多く、高いメタトレーニングコストが発生するため、実践的な採用は限られている。
例えば、VeLOは、汎用オプティマイザをメタトレーニングするために、メタトレーニングを4000TPU(\sim$10$\times$ GPT-3 compute)にスケールしたが、6億以上のパラメータタスクを一般化できなかった。
本研究では,単純な正規化されたオプティマイザアーキテクチャの構築とメタトレーニングの強化により,VeLO計算のごく一部,4.5GPU時間という,パフォーマンスの高い汎用的な更新ルールをメタトレーニングすることが可能になった。
我々の学習した更新規則は、そのメタトレーニング分布よりも6桁大きい10億規模の事前訓練タスク(GPT-3 XL 1.3B)に安定してスケールする。
さらに、様々なアウト・オブ・ディストリビューションタスクにまたがって強力な性能を示し、直交化、入出力と隠蔽重みの異なる更新ルール、デカップリングされた重みの崩壊を含む現代的な最適化ハーネスと互換性がある。
全体として、この研究は、よりリッチなメタトレーニングとデータキュレーションのレシピの探索を解放し、パフォーマンスをさらに向上する、実用的な学習可能な最適化アルゴリズムの道を開く。
関連論文リスト
- Celo: Training Versatile Learned Optimizers on a Compute Diet [20.69804303768643]
学習アーキテクチャやメタトレーニングの手順における重要な要素は、強力なメタ一般化につながる可能性がある。
そこで本稿では,評価課題のセットに基づいて,大規模システムの定量的性能を確実に評価するための評価指標を提案する。
提案手法であるCeloは,学習者のメタ一般化性能向上に大きく貢献する。
論文 参考訳(メタデータ) (2025-01-22T06:10:27Z) - $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers [31.59984079626214]
学習者(LO)は、ニューラルネットワークのウォールタイムトレーニング時間を著しく短縮する可能性がある。
彼らはメタトレーニングで見られるものよりも広いネットワークをトレーニングする場合、目に見えないタスクを最適化するのに苦労する。
我々は,$mu$-parameterized LOsのための簡単なメタトレーニングレシピを提案する。
論文 参考訳(メタデータ) (2024-05-31T19:28:47Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。