論文の概要: Learning to Optimize Quasi-Newton Methods
- arxiv url: http://arxiv.org/abs/2210.06171v2
- Date: Mon, 11 Sep 2023 07:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:11:35.112354
- Title: Learning to Optimize Quasi-Newton Methods
- Title(参考訳): 準ニュートン法を最適化する学習
- Authors: Isaac Liao, Rumen R. Dangovski, Jakob N. Foerster, Marin
Solja\v{c}i\'c
- Abstract要約: 本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
- 参考スコア(独自算出の注目度): 22.504971951262004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast gradient-based optimization algorithms have become increasingly
essential for the computationally efficient training of machine learning
models. One technique is to multiply the gradient by a preconditioner matrix to
produce a step, but it is unclear what the best preconditioner matrix is. This
paper introduces a novel machine learning optimizer called LODO, which tries to
online meta-learn the best preconditioner during optimization. Specifically,
our optimizer merges Learning to Optimize (L2O) techniques with quasi-Newton
methods to learn preconditioners parameterized as neural networks; they are
more flexible than preconditioners in other quasi-Newton methods. Unlike other
L2O methods, LODO does not require any meta-training on a training task
distribution, and instead learns to optimize on the fly while optimizing on the
test task, adapting to the local characteristics of the loss landscape while
traversing it. Theoretically, we show that our optimizer approximates the
inverse Hessian in noisy loss landscapes and is capable of representing a wide
range of inverse Hessians. We experimentally verify that our algorithm can
optimize in noisy settings, and show that simpler alternatives for representing
the inverse Hessians worsen performance. Lastly, we use our optimizer to train
a semi-realistic deep neural network with 95k parameters at speeds comparable
to those of standard neural network optimizers.
- Abstract(参考訳): 高速勾配に基づく最適化アルゴリズムは、機械学習モデルの計算効率の良いトレーニングにますます不可欠になっている。
一つのテクニックは、前条件行列によって勾配を乗じてステップを生成することであるが、最良の前条件行列が何であるかは不明である。
本稿では,最適化時に最適な事前条件をオンラインに提供しようとする,新しい機械学習オプティマイザlodoを紹介する。
具体的には、ニューラルネットワークとしてパラメータ化されたプレコンディショナーを学習するために、L2O(Learning to Optimize)技術と準ニュートン法を併用する。
他のl2oメソッドとは異なり、lodoはトレーニングタスクの分散上でのメタトレーニングを必要とせず、テストタスクを最適化しながらオンザフライで最適化することを学び、それをトラバースしながらロスランドスケープのローカル特性に適応する。
理論的には、我々のオプティマイザはノイズ損失景観における逆ヘッシアンを近似し、幅広い逆ヘッシアンを表現できることを示す。
我々は,提案アルゴリズムがノイズの多い設定で最適化できることを実験的に検証し,逆ヘッセン表現の簡易な代替手段が性能を悪化させることを示す。
最後に、オプティマイザを使用して、標準ニューラルネットワークオプティマイザと同等の速度で95kパラメータを持つ半現実的ディープニューラルネットワークをトレーニングします。
関連論文リスト
- ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。
私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。
最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2022-12-02T09:47:08Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Faster Optimization on Sparse Graphs via Neural Reparametrization [15.275428333269453]
グラフニューラルネットワークは,10-100倍の係数で最適化を高速化する,効率的な準ニュートン法を実装可能であることを示す。
本稿では, 熱拡散, 同期, 持続的ホモロジーなどの科学的問題に対する本手法の適用について述べる。
論文 参考訳(メタデータ) (2022-05-26T20:52:18Z) - Gradient Descent, Stochastic Optimization, and Other Tales [8.034728173797953]
このチュートリアルは、勾配降下法と最適化法の形式的側面と非公式な側面の両方に対処することを避けない。
勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。
ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配が使用される。
論文 参考訳(メタデータ) (2022-05-02T12:06:53Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。