論文の概要: Learning to Optimize Quasi-Newton Methods
- arxiv url: http://arxiv.org/abs/2210.06171v1
- Date: Tue, 11 Oct 2022 03:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:23:49.226058
- Title: Learning to Optimize Quasi-Newton Methods
- Title(参考訳): 準ニュートン法を最適化する学習
- Authors: Isaac Liao, Rumen R. Dangovski, Jakob N. Foerster, Marin
Solja\v{c}i\'c
- Abstract要約: 我々は,準ニュートン最適化のサブルーチンとして,損失の暗黙の逆 Hessian をオンラインメタ学習する LODO という新しい機械学習を導入する。
我々は,雑音の存在下でのサブルーチンの性能を実験的に検証し,逆ヘッセン表現の簡易な代替手段が性能を悪化させることを示す。
最後に、本アルゴリズムを用いて、95kパラメータの半現実的な深層ニューラルネットワークをトレーニングし、標準ニューラルネットワークに対する競合的な結果を得る。
- 参考スコア(独自算出の注目度): 15.931518873026707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel machine learning optimizer called LODO, which online
meta-learns an implicit inverse Hessian of the loss as a subroutine of
quasi-Newton optimization. Our optimizer merges Learning to Optimize (L2O)
techniques with quasi-Newton methods to learn neural representations of
symmetric matrix vector products, which are more flexible than those in other
quasi-Newton methods. Unlike other L2O methods, ours does not require any
meta-training on a training task distribution, and instead learns to optimize
on the fly while optimizing on the test task, adapting to the local
characteristics of the loss landscape while traversing it. Theoretically, we
show that our optimizer approximates the inverse Hessian in noisy loss
landscapes and is capable of representing a wide range of inverse Hessians. We
experimentally verify our algorithm's performance in the presence of noise, and
show that simpler alternatives for representing the inverse Hessians worsen
performance. Lastly, we use our optimizer to train a semi-realistic deep neural
network with 95k parameters, and obtain competitive results against standard
neural network optimizers.
- Abstract(参考訳): そこで我々はLODOと呼ばれる新しい機械学習オプティマイザを導入し、準ニュートン最適化のサブルーチンとして、損失の暗黙の逆 Hessian をオンラインメタ学習する。
この最適化手法は,他の準ニュートン法よりも柔軟である対称行列ベクトル積の神経表現を学習するために,l2o法と擬似ニュートン法を融合する。
他のl2oメソッドとは異なり、トレーニングタスク分散でのメタトレーニングは必要とせず、テストタスクを最適化しながらオンザフライで最適化することを学び、それをトラバースしながらロスランドスケープのローカル特性に適応する。
理論的には、我々のオプティマイザはノイズ損失景観における逆ヘッシアンを近似し、幅広い逆ヘッシアンを表現できることを示す。
我々は,雑音の存在下でのアルゴリズムの性能を実験的に検証し,逆ヘッセン表現の簡単な代替手段が性能を悪化させることを示す。
最後に、95kパラメータを持つ半現実的ディープニューラルネットワークをトレーニングするためにオプティマイザを使用し、標準ニューラルネットワークオプティマイザとの競合結果を得る。
関連論文リスト
- ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。
私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。
最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2022-12-02T09:47:08Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Faster Optimization on Sparse Graphs via Neural Reparametrization [15.275428333269453]
グラフニューラルネットワークは,10-100倍の係数で最適化を高速化する,効率的な準ニュートン法を実装可能であることを示す。
本稿では, 熱拡散, 同期, 持続的ホモロジーなどの科学的問題に対する本手法の適用について述べる。
論文 参考訳(メタデータ) (2022-05-26T20:52:18Z) - Gradient Descent, Stochastic Optimization, and Other Tales [8.034728173797953]
このチュートリアルは、勾配降下法と最適化法の形式的側面と非公式な側面の両方に対処することを避けない。
勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。
ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配が使用される。
論文 参考訳(メタデータ) (2022-05-02T12:06:53Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。