論文の概要: Adaptive Checkpoint Adjoint Method for Gradient Estimation in Neural ODE
- arxiv url: http://arxiv.org/abs/2006.02493v1
- Date: Wed, 3 Jun 2020 19:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:27:20.923871
- Title: Adaptive Checkpoint Adjoint Method for Gradient Estimation in Neural ODE
- Title(参考訳): 適応的チェックポイント随伴法による神経odeの勾配推定
- Authors: Juntang Zhuang, Nicha Dvornek, Xiaoxiao Li, Sekhar Tatikonda, Xenophon
Papademetris, James Duncan
- Abstract要約: 本稿では,新しいアダプティブチェックポイントアジョイント(ACA)手法により,ベンチマークタスクにおけるNODEの性能が向上することを示す。
ACAは、前モード軌跡を逆モード軌跡として記録する軌道チェックポイント戦略を適用し、精度を保証する。
画像分類タスクでは, 副次法やナイーブ法と比較して, ACAはトレーニング時間の半分で誤り率の半分を達成している。
- 参考スコア(独自算出の注目度): 18.97779074903382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural ordinary differential equations (NODEs) have recently attracted
increasing attention; however, their empirical performance on benchmark tasks
(e.g. image classification) are significantly inferior to discrete-layer
models. We demonstrate an explanation for their poorer performance is the
inaccuracy of existing gradient estimation methods: the adjoint method has
numerical errors in reverse-mode integration; the naive method directly
back-propagates through ODE solvers, but suffers from a redundantly deep
computation graph when searching for the optimal stepsize. We propose the
Adaptive Checkpoint Adjoint (ACA) method: in automatic differentiation, ACA
applies a trajectory checkpoint strategy which records the forward-mode
trajectory as the reverse-mode trajectory to guarantee accuracy; ACA deletes
redundant components for shallow computation graphs; and ACA supports adaptive
solvers. On image classification tasks, compared with the adjoint and naive
method, ACA achieves half the error rate in half the training time; NODE
trained with ACA outperforms ResNet in both accuracy and test-retest
reliability. On time-series modeling, ACA outperforms competing methods.
Finally, in an example of the three-body problem, we show NODE with ACA can
incorporate physical knowledge to achieve better accuracy. We provide the
PyTorch implementation of ACA:
\url{https://github.com/juntang-zhuang/torch-ACA}.
- Abstract(参考訳): ニューラル常微分方程式(ノード)は最近注目を集めているが、ベンチマークタスク(画像分類など)における経験的性能は離散層モデルよりも著しく劣っている。
本稿では,従来の勾配推定手法が不正確であることを示す。副次法は逆モード積分における数値誤差を持つが,直交法はODEソルバを直接バックプロパゲートするが,最適段数を求める際には冗長な深度計算グラフに悩まされる。
自動微分では、前方モードの軌道を逆モードの軌道として記録する軌道チェックポイント戦略を適用し、精度を保証し、acaは浅い計算グラフの冗長成分を削除し、acaは適応ソルバをサポートする。
画像分類タスクでは、アジョイントとナイーブの手法と比較して、ACAはトレーニング時間の半分でエラー率の半分を達成している。
時系列モデリングでは、ACAは競合する手法より優れている。
最後に, 3 体問題の一例として, NODE と ACA が物理知識を組み込んで精度を向上できることを示す。
ACAのPyTorch実装を提供する: \url{https://github.com/juntang-zhuang/torch-ACA}。
関連論文リスト
- A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - MALI: A memory efficient and reverse accurate integrator for Neural ODEs [11.786863362728868]
ニューラル常微分方程式に対するメモリ効率ALF積分器(MALI)
MALIはまず、ImageNet上でNeural ODEの実行可能なトレーニングを可能にし、よく調整されたResNetを上回るパフォーマンスを実現する。
時系列モデリングでは、MALIは随伴法よりも大幅に優れている。
連続生成モデルでは、MALIは新たな最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-02-09T06:33:47Z) - Stochastic Gradient Variance Reduction by Solving a Filtering Problem [0.951828574518325]
ディープニューラルネットワーク(DNN)は一般的に最適化された勾配降下(SGD)を用いる
試料を用いた勾配推定はノイズが多く信頼性が低い傾向にあり, 勾配のばらつきが大きく, 収束不良が生じる。
勾配を一貫した推定を行う効率的な最適化アルゴリズムである textbfFilter Gradient Decent (FGD) を提案する。
論文 参考訳(メタデータ) (2020-12-22T23:48:42Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。