論文の概要: SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models
- arxiv url: http://arxiv.org/abs/2106.00553v1
- Date: Tue, 1 Jun 2021 15:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 17:26:05.569848
- Title: SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models
- Title(参考訳): Shine: 双方向最適化と暗黙的モデルのためのフォワードパスからの逆推定
- Authors: Zaccharie Ramzi, Florian Mannel, Shaojie Bai, Jean-Luc Starck,
Philippe Ciuciu, Thomas Moreau
- Abstract要約: 近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
- 参考スコア(独自算出の注目度): 15.541264326378366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, implicit deep learning has emerged as a method to increase
the depth of deep neural networks. While their training is memory-efficient,
they are still significantly slower to train than their explicit counterparts.
In Deep Equilibrium Models (DEQs), the training is performed as a bi-level
problem, and its computational complexity is partially driven by the iterative
inversion of a huge Jacobian matrix. In this paper, we propose a novel strategy
to tackle this computational bottleneck from which many bi-level problems
suffer. The main idea is to use the quasi-Newton matrices from the forward pass
to efficiently approximate the inverse Jacobian matrix in the direction needed
for the gradient computation. We provide a theorem that motivates using our
method with the original forward algorithms. In addition, by modifying these
forward algorithms, we further provide theoretical guarantees that our method
asymptotically estimates the true implicit gradient. We empirically study this
approach in many settings, ranging from hyperparameter optimization to large
Multiscale DEQs applied to CIFAR and ImageNet. We show that it reduces the
computational cost of the backward pass by up to two orders of magnitude. All
this is achieved while retaining the excellent performance of the original
models in hyperparameter optimization and on CIFAR, and giving encouraging and
competitive results on ImageNet.
- Abstract(参考訳): 近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングはメモリ効率が高いが、明示的なトレーニングに比べてトレーニングがかなり遅い。
深層平衡モデル(deqs)では、トレーニングは双レベル問題として行われ、計算の複雑さは巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,biレベルの問題が多く発生するこの計算ボトルネックに対処するための新しい手法を提案する。
主な考え方は、フォワードパスから準ニュートン行列を用いて、勾配計算に必要な方向の逆ヤコビ行列を効率的に近似することである。
本手法を元来のフォワードアルゴリズムで活用する動機付けとなる定理を提案する。
さらに,これらのフォワードアルゴリズムを改良することにより,本手法が漸近的に真の暗黙的勾配を推定する理論的な保証を与える。
我々は、超パラメータ最適化からCIFARやImageNetに適用された大規模DQまで、様々な環境でこのアプローチを実証的に研究している。
これにより、後方通過の計算コストを最大2桁削減できることを示す。
これらはすべて、ハイパーパラメータ最適化およびCIFARにおけるオリジナルのモデルの優れたパフォーマンスを維持し、ImageNet上での奨励的かつ競争的な結果を提供する。
関連論文リスト
- Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Efficient Training of Deep Equilibrium Models [6.744714965617125]
深層平衡モデル(DEQ)はデータ表現の学習に非常に強力であることが証明されている。
この考え方は、従来の(明示的な)フィードフォワードニューラルネットワークを暗黙の固定点方程式で置き換えることである。
DEQ層によるバックプロパゲーションは、高価なヤコビ方程式を解く必要がある。
論文 参考訳(メタデータ) (2023-04-23T14:20:09Z) - Nystrom Method for Accurate and Scalable Implicit Differentiation [25.29277451838466]
我々は,Nystrom法が他の手法と同等あるいは優れた性能を連続的に達成していることを示す。
提案手法は数値的な不安定さを回避し,反復を伴わない行列演算で効率的に計算できる。
論文 参考訳(メタデータ) (2023-02-20T02:37:26Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - Gradient Descent, Stochastic Optimization, and Other Tales [8.034728173797953]
このチュートリアルは、勾配降下法と最適化法の形式的側面と非公式な側面の両方に対処することを避けない。
勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。
ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配が使用される。
論文 参考訳(メタデータ) (2022-05-02T12:06:53Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。