論文の概要: Efficient Training of Deep Equilibrium Models
- arxiv url: http://arxiv.org/abs/2304.11663v1
- Date: Sun, 23 Apr 2023 14:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 17:13:27.202517
- Title: Efficient Training of Deep Equilibrium Models
- Title(参考訳): 深部平衡モデルの効率的な訓練
- Authors: Bac Nguyen, Lukas Mauch
- Abstract要約: 深層平衡モデル(DEQ)はデータ表現の学習に非常に強力であることが証明されている。
この考え方は、従来の(明示的な)フィードフォワードニューラルネットワークを暗黙の固定点方程式で置き換えることである。
DEQ層によるバックプロパゲーションは、高価なヤコビ方程式を解く必要がある。
- 参考スコア(独自算出の注目度): 6.744714965617125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep equilibrium models (DEQs) have proven to be very powerful for learning
data representations. The idea is to replace traditional (explicit) feedforward
neural networks with an implicit fixed-point equation, which allows to decouple
the forward and backward passes. In particular, training DEQ layers becomes
very memory-efficient via the implicit function theorem. However,
backpropagation through DEQ layers still requires solving an expensive
Jacobian-based equation. In this paper, we introduce a simple but effective
strategy to avoid this computational burden. Our method relies on the Jacobian
approximation of Broyden's method after the forward pass to compute the
gradients during the backward pass. Experiments show that simply re-using this
approximation can significantly speed up the training while not causing any
performance degradation.
- Abstract(参考訳): 深層平衡モデル(DEQ)はデータ表現の学習に非常に強力であることが証明されている。
この考え方は、従来のフィードフォワードニューラルネットワークを暗黙の固定点方程式で置き換えることであり、前方と後方のパスを分離することができる。
特に、トレーニング deq 層は暗黙関数定理によって非常にメモリ効率が良くなる。
しかし、DEC層によるバックプロパゲーションは、高価なジャコビアン方程式を解く必要がある。
本稿では,この計算負荷を回避するための単純かつ効果的な戦略を提案する。
本手法は,後方通過時の勾配を計算するために,前方通過後のブロイデン法のジャコビアン近似に依存する。
実験により、単にこの近似を再利用すれば、パフォーマンスを低下させることなく、トレーニングを大幅にスピードアップできることが示された。
関連論文リスト
- Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Neural incomplete factorization: learning preconditioners for the conjugate gradient method [2.899792823251184]
我々は、効率的なプレコンディショナーの生成を加速するためのデータ駆動型アプローチを開発する。
一般的に手動のプリコンディショナーをグラフニューラルネットワークの出力に置き換える。
本手法は, 行列の不完全分解を発生させ, 神経不完全分解(NeuralIF)と呼ばれる。
論文 参考訳(メタデータ) (2023-05-25T11:45:46Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Efficient Neural Network Training via Forward and Backward Propagation
Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文 参考訳(メタデータ) (2021-11-10T13:49:47Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。