論文の概要: Accelerated Training through Iterative Gradient Propagation Along the Residual Path
- arxiv url: http://arxiv.org/abs/2501.17086v1
- Date: Tue, 28 Jan 2025 17:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:54.932975
- Title: Accelerated Training through Iterative Gradient Propagation Along the Residual Path
- Title(参考訳): 残留経路に沿った反復的勾配伝播による加速訓練
- Authors: Erwan Fagnou, Paul Caillon, Blaise Delattre, Alexandre Allauzen,
- Abstract要約: ハイウェイバックプロパゲーションは、バックプロパゲーションを近似する並列化可能な反復アルゴリズムである。
ResNetやTransformerから、リカレントニューラルネットワークまで、さまざまな共通アーキテクチャセットに適応可能である。
- 参考スコア(独自算出の注目度): 46.577761606415805
- License:
- Abstract: Despite being the cornerstone of deep learning, backpropagation is criticized for its inherent sequentiality, which can limit the scalability of very deep models. Such models faced convergence issues due to vanishing gradient, later resolved using residual connections. Variants of these are now widely used in modern architecture. However, the computational cost of backpropagation remains a major burden, accounting for most of the training time. Taking advantage of residual-like architectural designs, we introduce Highway backpropagation, a parallelizable iterative algorithm that approximates backpropagation, by alternatively i) accumulating the gradient estimates along the residual path, and ii) backpropagating them through every layer in parallel. This algorithm is naturally derived from a decomposition of the gradient as the sum of gradients flowing through all paths and is adaptable to a diverse set of common architectures, ranging from ResNets and Transformers to recurrent neural networks. Through an extensive empirical study on a large selection of tasks and models, we evaluate Highway-BP and show that major speedups can be achieved with minimal performance degradation.
- Abstract(参考訳): ディープラーニングの基盤であるにもかかわらず、バックプロパゲーションは本質的にシーケンシャルであり、非常に深いモデルのスケーラビリティを制限することができると批判されている。
このようなモデルは勾配の消失によって収束の問題に直面し、後に残留接続を用いて解決した。
これらのバリエーションは現代建築で広く使われている。
しかしながら、バックプロパゲーションの計算コストは、トレーニング時間の大半を考慮し、大きな負担となっている。
残留型アーキテクチャ設計の利点を生かして,並列化可能なバックプロパゲーションアルゴリズムであるハイウェイ・バックプロパゲーションを導入し,その代わりにバックプロパゲーションを近似する。
一 残留経路に沿った勾配推定値の蓄積及び
二 各層を平行して逆伝播させること。
このアルゴリズムは、すべての経路を流れる勾配の和として勾配の分解から自然に派生し、ResNetやTransformerからリカレントニューラルネットワークに至るまで、様々な共通アーキテクチャに適応できる。
タスクとモデルの大規模な選択に関する広範な実証研究を通じて、ハイウェイBPを評価し、性能劣化を最小限に抑えて大きなスピードアップを実現することができることを示す。
関連論文リスト
- Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。
これは空間における有限幅の勾配距離の理論に依存する。
論文 参考訳(メタデータ) (2024-03-19T16:34:31Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Low-memory stochastic backpropagation with multi-channel randomized
trace estimation [6.985273194899884]
ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
論文 参考訳(メタデータ) (2021-06-13T13:54:02Z) - Deep Equilibrium Architectures for Inverse Problems in Imaging [14.945209750917483]
ディープニューラルネットワークによるイメージングにおける逆問題に対する最近の取り組みは、最適化手法の一定数の反復に触発されたアーキテクチャを使用している。
本稿では,再構成精度を4dB PSNRに向上させた,無限の繰り返しに対応する代替手法について述べる。
論文 参考訳(メタデータ) (2021-02-16T03:49:58Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。