Fugu-MT 論文翻訳(概要): VeLO: Training Versatile Learned Optimizers by Scaling Up

論文の概要: VeLO: Training Versatile Learned Optimizers by Scaling Up

arxiv url: http://arxiv.org/abs/2211.09760v1
Date: Thu, 17 Nov 2022 18:39:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 15:55:07.057027
Title: VeLO: Training Versatile Learned Optimizers by Scaling Up
Title（参考訳）: VeLO: スケールアップによるVersatile Learned Optimizerのトレーニング
Authors: Luke Metz, James Harrison, C. Daniel Freeman, Amil Merchant, Lucas Beyer, James Bradbury, Naman Agrawal, Ben Poole, Igor Mordatch, Adam Roberts, Jascha Sohl-Dickstein
Abstract要約: 私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
参考スコア（独自算出の注目度）: 67.90237498659397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While deep learning models have replaced hand-designed features across many domains, these models are still trained with hand-designed optimizers. In this work, we leverage the same scaling approach behind the success of deep learning to learn versatile optimizers. We train an optimizer for deep learning which is itself a small neural network that ingests gradients and outputs parameter updates. Meta-trained with approximately four thousand TPU-months of compute on a wide variety of optimization tasks, our optimizer not only exhibits compelling performance, but optimizes in interesting and unexpected ways. It requires no hyperparameter tuning, instead automatically adapting to the specifics of the problem being optimized. We open source our learned optimizer, meta-training code, the associated train and test data, and an extensive optimizer benchmark suite with baselines at velo-code.github.io.
Abstract（参考訳）: ディープラーニングモデルは、多くのドメインで手作りの機能を置き換えるが、これらのモデルは、まだ手作りのオプティマイザで訓練されている。この作業では、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用的なオプティマイザを学習します。私たちは、勾配を取り込み、パラメータ更新を出力する小さなニューラルネットワークであるディープラーニングのためのオプティマイザをトレーニングします。様々な最適化タスクで約4万のTPU-月分の計算をメタトレーニングすることで、最適化は魅力的なパフォーマンスを示すだけでなく、興味深い、予期せぬ方法で最適化する。ハイパーパラメータのチューニングは不要で、代わりに最適化されている問題の仕様に自動的に適応する。学習したオプティマイザ、メタトレーニングコード、関連するトレインとテストデータ、およびvelo-code.github.ioのベースラインを備えた広範なオプティマイザベンチマークスイートをオープンソースとして公開しています。

関連論文リスト

Learning Versatile Optimizers on a Compute Diet [20.69804303768643]
学習アーキテクチャやメタトレーニングの手順における重要な要素は、強力なメタ一般化につながる可能性がある。そこで本稿では,評価課題のセットに基づいて,大規模システムの定量的性能を確実に評価するための評価指標を提案する。提案手法であるCeloは,学習者のメタ一般化性能向上に大きく貢献する。
論文参考訳（メタデータ） (2025-01-22T06:10:27Z)
Two Optimizers Are Better Than One: LLM Catalyst Empowers Gradient-Based Optimization for Prompt Tuning [69.95292905263393]
我々は,勾配に基づく最適化と大規模言語モデル(MsLL)が相互補完的であることを示し,協調的な最適化手法を提案する。私たちのコードはhttps://www.guozix.com/guozix/LLM-catalystでリリースされています。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文参考訳（メタデータ） (2022-10-11T03:47:14Z)
Practical tradeoffs between memory, compute, and performance in learned optimizers [46.04132441790654]
我々は、多くの学習や手作業で設計された機能に対して、メモリ、計算、パフォーマンスのトレードオフを特定し、定量化する。分析を活用して、従来の作業よりも速く、より効率的に学習可能なものを構築するのです。
論文参考訳（メタデータ） (2022-03-22T16:36:36Z)
Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。人口ベーストレーニングの形式は、この自己学習の組織化に使用される。このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文参考訳（メタデータ） (2021-01-14T19:07:17Z)
Reverse engineering learned optimizers reveals known and novel mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文参考訳（メタデータ） (2020-11-04T07:12:43Z)
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文参考訳（メタデータ） (2020-09-23T16:35:09Z)
Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。その結果, 直接使用法と比較して計算時間を2～5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文参考訳（メタデータ） (2020-02-04T20:00:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。