論文の概要: LayerPipe2: Multistage Pipelining and Weight Recompute via Improved Exponential Moving Average for Training Neural Networks
- arxiv url: http://arxiv.org/abs/2512.08160v1
- Date: Tue, 09 Dec 2025 01:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.777986
- Title: LayerPipe2: Multistage Pipelining and Weight Recompute via Improved Exponential Moving Average for Training Neural Networks
- Title(参考訳): LayerPipe2: ニューラルネットワーク学習のための指数移動平均の改善による多段パイプライニングと重み計算
- Authors: Nanda K. Unnikrishnan, Keshab K. Parhi,
- Abstract要約: パイプライニングの望ましいレベルを達成するために各層にどれだけの勾配遅延を導入する必要があるか、原則として理解することができなかった。
遅延が法的に挿入される可能性のある場所を特定し、ネットワーク構造から直接必要な遅延量を示す。
パイプライニングを各層に施すと、遅延の量は下流のステージの残数にのみ依存する。
- 参考スコア(独自算出の注目度): 6.69087470775851
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In our prior work, LayerPipe, we had introduced an approach to accelerate training of convolutional, fully connected, and spiking neural networks by overlapping forward and backward computation. However, despite empirical success, a principled understanding of how much gradient delay needs to be introduced at each layer to achieve desired level of pipelining was not addressed. This paper, LayerPipe2, fills that gap by formally deriving LayerPipe using variable delayed gradient adaptation and retiming. We identify where delays may be legally inserted and show that the required amount of delay follows directly from the network structure where inner layers require fewer delays and outer layers require longer delays. When pipelining is applied at every layer, the amount of delay depends only on the number of remaining downstream stages. When layers are pipelined in groups, all layers in the group share the same assignment of delays. These insights not only explain previously observed scheduling patterns but also expose an often overlooked challenge that pipelining implicitly requires storage of historical weights. We overcome this storage bottleneck by developing a pipeline--aware moving average that reconstructs the required past states rather than storing them explicitly. This reduces memory cost without sacrificing the accuracy guarantees that makes pipelined learning viable. The result is a principled framework that illustrates how to construct LayerPipe architectures, predicts their delay requirements, and mitigates their storage burden, thereby enabling scalable pipelined training with controlled communication computation tradeoffs.
- Abstract(参考訳): 以前の研究であるLayerPipeでは、前方と後方の計算を重複させることで、畳み込み、完全に接続され、スパイクするニューラルネットワークのトレーニングを加速するアプローチを導入しました。
しかし、実証的な成功にもかかわらず、所望のパイプライニングレベルを達成するために各層にどれだけの勾配遅延を導入する必要があるかを原則的に理解することはできなかった。
本稿では,遅延勾配適応とretimingを用いてLayerPipeを公式に導出することにより,そのギャップを埋める。
遅延が法的に挿入される可能性のある場所を特定し、必要な遅延量がネットワーク構造に直接従うことを示し、内部層は遅延が少なく、外部層は遅延が長くなる。
パイプライニングを各層に施すと、遅延の量は下流のステージの残数にのみ依存する。
レイヤがグループにパイプラインされる場合、グループのすべてのレイヤは同じ遅延の割り当てを共有します。
これらの洞察は、以前に観測されたスケジューリングパターンを説明するだけでなく、パイプライン化が暗黙的に歴史的重みの保存を必要とする、しばしば見落とされがちな課題を露呈する。
パイプラインを明示的に保存するのではなく、必要な過去の状態を再構築する移動平均を意識して開発することで、このストレージボトルネックを克服します。
これにより、パイプライン学習が実現可能な精度保証を犠牲にすることなく、メモリコストを削減できる。
その結果は、LayerPipeアーキテクチャの構築方法、遅延要件の予測、ストレージの負担軽減、そして、制御された通信計算トレードオフによるスケーラブルなパイプライントレーニングを実現するための、原則化されたフレームワークである。
関連論文リスト
- Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting [70.75913449565203]
Transformerベースのエンコーダはブロック処理に広く使われている。
本稿では,ブロック処理に適した新しいエンコーダSpralformerを提案する。
実験の結果,Librispeechにおける平均トークン放出遅延は21.6%減少した。
論文 参考訳(メタデータ) (2025-10-01T14:56:45Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - Efficient Event-based Delay Learning in Spiking Neural Networks [0.1350479308585481]
スパイキングニューラルネットワーク(SNN)はスパース通信を用いて計算し、注目を集めている。
本研究では,イベントプロップ形式を基礎とした,遅延を伴うSNNのための新しいイベントベーストレーニング手法を提案する。
提案手法はニューロン毎の複数のスパイクをサポートし,我々の知る限り,繰り返しSNNに適用される最初の遅延学習アルゴリズムである。
論文 参考訳(メタデータ) (2025-01-13T13:44:34Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding [13.747101397628887]
大規模言語モデル(LLM)の高速化のためのエンドツーエンドのソリューションを提案する。
また,すべての変圧器層が同じ出口を共有できる早期の出口損失を,早期の層で低落率,後期の層で高落率,早期の出口損失に適用した。
このトレーニングレシピは、モデルに補助的なレイヤやモジュールを追加することなく、初期のレイヤでの早期退避の精度を高めることを示す。
論文 参考訳(メタデータ) (2024-04-25T16:20:23Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - LayerPipe: Accelerating Deep Neural Network Training by Intra-Layer and
Inter-Layer Gradient Pipelining and Multiprocessor Scheduling [6.549125450209931]
バックプロパゲーションによるモデルパラメータのトレーニングは、本質的にフィードバックループを生成する。
提案システムはLayerPipeと呼ばれ、トレーニングに必要なクロックサイクルの数を削減している。
論文 参考訳(メタデータ) (2021-08-14T23:51:00Z) - Training cascaded networks for speeded decisions using a
temporal-difference loss [39.79639377894641]
ディープフィードフォワードニューラルネットワークは、順次動作する。
本研究では,各残差ブロックに伝搬遅延を導入し,カスケード化されたResNetを構築する。
スキップ接続を介して送信される情報は遅延を避けるため、アーキテクチャの機能的深さは時間とともに増加する。
論文 参考訳(メタデータ) (2021-02-19T08:40:19Z) - Fast and Complete: Enabling Complete Neural Network Verification with
Rapid and Massively Parallel Incomplete Verifiers [112.23981192818721]
BaB プロセス中に線形計画法 (LP) を置き換えるために, 逆モード線形緩和に基づく解析法 (LiRPA) を提案する。
LPとは異なり、LiRPAを適用すると、より弱い境界が得られ、分割時にサブドメインのコンフリクトをチェックすることもできない。
既存のLPベースのアプローチと比較して、桁違いのスピードアップを示す。
論文 参考訳(メタデータ) (2020-11-27T16:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。