論文の概要: Second-Order Neural ODE Optimizer
- arxiv url: http://arxiv.org/abs/2109.14158v1
- Date: Wed, 29 Sep 2021 02:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:34:58.398777
- Title: Second-Order Neural ODE Optimizer
- Title(参考訳): 2次ニューラルodeオプティマイザ
- Authors: Guan-Horng Liu, Tianrong Chen, Evangelos A. Theodorou
- Abstract要約: 微分プログラミングと呼ばれる特定の連続時間OC手法は、同じO(1)メモリコストで高次デリバティブに対して下位のODEを導出するために適用可能であることを示す。
この手法は,壁面時間における1次ベースラインよりもはるかに高速に収束する。
また,ニューラルODEの統合時間や2次フィードバックポリシなど,アーキテクチャの直接的な最適化も実現している。
- 参考スコア(独自算出の注目度): 11.92713188431164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel second-order optimization framework for training the
emerging deep continuous-time models, specifically the Neural Ordinary
Differential Equations (Neural ODEs). Since their training already involves
expensive gradient computation by solving a backward ODE, deriving efficient
second-order methods becomes highly nontrivial. Nevertheless, inspired by the
recent Optimal Control (OC) interpretation of training deep networks, we show
that a specific continuous-time OC methodology, called Differential
Programming, can be adopted to derive backward ODEs for higher-order
derivatives at the same O(1) memory cost. We further explore a low-rank
representation of the second-order derivatives and show that it leads to
efficient preconditioned updates with the aid of Kronecker-based factorization.
The resulting method converges much faster than first-order baselines in
wall-clock time, and the improvement remains consistent across various
applications, e.g. image classification, generative flow, and time-series
prediction. Our framework also enables direct architecture optimization, such
as the integration time of Neural ODEs, with second-order feedback policies,
strengthening the OC perspective as a principled tool of analyzing optimization
in deep learning.
- Abstract(参考訳): 本稿では,神経常微分方程式(neural ordinary differential equation,neural odes)を学習するための新しい2次最適化フレームワークを提案する。
彼らのトレーニングは、後方ODEを解くことで、既に高価な勾配計算を伴っているため、効率的な2階法を導出することは、非常に非自明なものとなる。
それにもかかわらず、近年の深層ネットワークの最適制御(OC)解釈に触発されて、差分プログラミングと呼ばれる特定の連続時間OC手法が、同じO(1)メモリコストで高階導関数に対して下位のODEを導出できることを示した。
我々はさらに,二階微分の低ランク表現を探索し,クロネッカー因子分解の助けを借りて,より効率的な事前条件付き更新をもたらすことを示した。
その結果, 画像分類, 生成フロー, 時系列予測などの様々な応用において, 壁時計時間における一階ベースラインよりもはるかに高速に収束する。
また,ニューラルODEの統合時間や2次フィードバックポリシなどの直接的なアーキテクチャ最適化も実現し,ディープラーニングにおける最適化分析の原則的ツールとしてのOCの観点を強化した。
関連論文リスト
- Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning [5.325297567945828]
本稿では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。
提案アルゴリズムは,様々な条件下で特徴付けられ,オンラインサンプルベース手法に特化していることを示す。
論文 参考訳(メタデータ) (2024-05-15T19:03:08Z) - Tensor-Valued Time and Inference Path Optimization in Differential Equation-Based Generative Modeling [16.874769609089764]
この研究は、従来のスカラー値の時間を複数の次元に拡張するテンソル値の時間を導入している。
また,多次元推論軌道を適応的に決定する新しい経路最適化問題を提案する。
論文 参考訳(メタデータ) (2024-04-22T13:20:01Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - First-Order Optimization Inspired from Finite-Time Convergent Flows [26.931390502212825]
本稿では, 1次有限時間流に対するオイラー離散化を提案し, 決定論的および決定論的設定において収束を保証する。
次に、提案したアルゴリズムを学術的な例に適用し、深層ニューラルネットワークトレーニングを行い、SVHNデータセット上でそのパフォーマンスを実証的にテストする。
提案手法は,標準最適化法に対してより高速な収束を示す。
論文 参考訳(メタデータ) (2020-10-06T19:28:00Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - On Second Order Behaviour in Augmented Neural ODEs [69.8070643951126]
第二次ニューラルノード(ソノド)を考える
副次感度法がSONODEにどのように拡張できるかを示す。
我々は拡張NODE(Augmented NODEs)のより広範なクラスの理論的理解を拡張した。
論文 参考訳(メタデータ) (2020-06-12T14:25:31Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Scalable Second Order Optimization for Deep Learning [34.12384996822749]
本稿では,第2次プレコンディショニング手法のスケーラブルな実装について述べる(第2に,完全行列 Adagrad の変種)。
我々の新しい設計は、多コアCPUと複数のアクセラレーションユニットを組み合わせた深層モデルのトレーニングに、一般的な異種ハードウェアアーキテクチャを効果的に活用する。
本稿では,変換器を用いた機械翻訳,BERTによる言語モデリング,Criteoによるクリックスルー率予測,ResNet-50によるImageNetの画像分類など,非常に大規模な学習課題における最先端の学習性能を示す。
論文 参考訳(メタデータ) (2020-02-20T20:51:33Z) - DDPNOpt: Differential Dynamic Programming Neural Optimizer [29.82841891919951]
トレーニングのための最も広く使われているアルゴリズムは、差分動的プログラミング(DDP)とリンク可能であることを示す。
本稿では,フィードフォワードと畳み込みネットワークをトレーニングするためのDDPOptの新たなクラスを提案する。
論文 参考訳(メタデータ) (2020-02-20T15:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。