論文の概要: Symplectic Adjoint Method for Exact Gradient of Neural ODE with Minimal
Memory
- arxiv url: http://arxiv.org/abs/2102.09750v1
- Date: Fri, 19 Feb 2021 05:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:24:26.180831
- Title: Symplectic Adjoint Method for Exact Gradient of Neural ODE with Minimal
Memory
- Title(参考訳): シンプレクティック随伴法による最小記憶を有する神経odeの精密勾配
- Authors: Takashi Matsubara, Yuto Miyatake, Takaharu Yaguchi
- Abstract要約: バックプロパゲーションアルゴリズムは、ネットワークサイズの使用回数に比例するメモリフットプリントを必要とする。
さもなくば、随伴法は最小限のメモリフットプリントで後向きの数値積分による勾配を得る。
本研究では,使用回数とネットワークサイズに比例する足跡の正確な勾配を求めるシンプレクティック随伴法を提案する。
- 参考スコア(独自算出の注目度): 7.1975923901054575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A neural network model of a differential equation, namely neural ODE, has
enabled us to learn continuous-time dynamical systems and probabilistic
distributions with a high accuracy. It uses the same network repeatedly during
a numerical integration. Hence, the backpropagation algorithm requires a memory
footprint proportional to the number of uses times the network size. This is
true even if a checkpointing scheme divides the computational graph into
sub-graphs. Otherwise, the adjoint method obtains a gradient by a numerical
integration backward in time with a minimal memory footprint; however, it
suffers from numerical errors. This study proposes the symplectic adjoint
method, which obtains the exact gradient (up to rounding error) with a
footprint proportional to the number of uses plus the network size. The
experimental results demonstrate the symplectic adjoint method occupies the
smallest footprint in most cases, functions faster in some cases, and is robust
to a rounding error among competitive methods.
- Abstract(参考訳): 微分方程式、すなわちニューラルODEのニューラルネットワークモデルにより、連続時間力学系と確率分布を高精度に学習することが可能になった。
数値積分中に同じネットワークを何度も使用します。
したがって、バックプロパゲーションアルゴリズムは、ネットワークサイズの使用回数に比例するメモリフットプリントを必要とする。
これは、チェックポイント方式が計算グラフをサブグラフに分割しても当てはまります。
さもなくば、随伴法は最小のメモリフットプリントで後方への数値積分による勾配を得るが、数値誤差に苦しむ。
本研究では、使用回数とネットワークサイズに比例したフットプリントで正確な勾配(丸め誤差まで)を得るシンプレクティック随伴法を提案する。
実験結果から,シンプレクティック随伴法が最も足跡が小さく,動作が速い場合があり,競合法間での丸め誤差に頑健であることが示された。
関連論文リスト
- Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Sampling weights of deep neural networks [1.2370077627846041]
完全に接続されたニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。
教師付き学習環境では、内部ネットワークパラメータの反復最適化や勾配計算は不要である。
サンプルネットワークが普遍近似器であることを証明する。
論文 参考訳(メタデータ) (2023-06-29T10:13:36Z) - A memory-efficient neural ODE framework based on high-level adjoint
differentiation [4.063868707697316]
我々は、高レベル離散アルゴリズムの微分に基づく新しいニューラルODEフレームワーク、PNODEを提案する。
PNODEは他の逆精度の手法と比較してメモリ効率が最も高いことを示す。
論文 参考訳(メタデータ) (2022-06-02T20:46:26Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - Hessian Aware Quantization of Spiking Neural Networks [1.90365714903665]
ニューロモルフィックアーキテクチャは、可変ビット精度と局所ビット精度の大規模並列計算を可能にする。
SNNトレーニングの現在の勾配に基づく方法は、複数の状態変数を持つ複雑なニューロンモデルを使用する。
我々は、勾配に基づくトレーニングと互換性を保ちつつ、状態変数の数を4倍に削減する単純化されたニューロンモデルを提案する。
論文 参考訳(メタデータ) (2021-04-29T05:27:34Z) - Local Extreme Learning Machines and Domain Decomposition for Solving
Linear and Nonlinear Partial Differential Equations [0.0]
本稿では線形偏微分方程式と非線形偏微分方程式の解法を提案する。
この手法は、極端学習機械(ELM)、ドメイン分解、局所ニューラルネットワークのアイデアを組み合わせたものである。
本稿では,DGM法(Deep Galerkin Method)とPINN(Physical-informed Neural Network)を精度と計算コストの観点から比較する。
論文 参考訳(メタデータ) (2020-12-04T23:19:39Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Learned Factor Graphs for Inference from Stationary Time Sequences [107.63351413549992]
定常時間列のためのモデルベースアルゴリズムとデータ駆動型MLツールを組み合わせたフレームワークを提案する。
ニューラルネットワークは、時系列の分布を記述する因子グラフの特定のコンポーネントを別々に学習するために開発された。
本稿では,学習された定常因子グラフに基づく推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-05T07:06:19Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。