論文の概要: Layer-Parallel Training for Transformers
- arxiv url: http://arxiv.org/abs/2601.09026v1
- Date: Tue, 13 Jan 2026 23:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.19353
- Title: Layer-Parallel Training for Transformers
- Title(参考訳): 変圧器の層並列訓練
- Authors: Shuai Jiang, Marc Salvado, Eric C. Cyr, Alena Kopaničáková, Rolf Krause, Jacob B. Schroder,
- Abstract要約: マルチレベル層並列手法を用いたトランスフォーマーの新しいトレーニング手法を提案する。
トレーニングの前・後処理フェーズに対するマルチレベル並列インタイムアルゴリズムの適用により,層次元の並列加速度が達成される。
我々は、この臨界遷移を検出し、シリアルトレーニングに切り替えるか、階層並列トレーニングの精度を体系的に向上させるアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 3.799206695592991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new training methodology for transformers using a multilevel, layer-parallel approach. Through a neural ODE formulation of transformers, our application of a multilevel parallel-in-time algorithm for the forward and backpropagation phases of training achieves parallel acceleration over the layer dimension. This dramatically enhances parallel scalability as the network depth increases, which is particularly useful for increasingly large foundational models. However, achieving this introduces errors that cause systematic bias in the gradients, which in turn reduces convergence when closer to the minima. We develop an algorithm to detect this critical transition and either switch to serial training or systematically increase the accuracy of layer-parallel training. Results, including BERT, GPT2, ViT, and machine translation architectures, demonstrate parallel-acceleration as well as accuracy commensurate with serial pre-training while fine-tuning is unaffected.
- Abstract(参考訳): マルチレベル層並列手法を用いたトランスフォーマーの新しいトレーニング手法を提案する。
変圧器のニューラルODEによる定式化により,トレーニングの前・後処理フェーズに対するマルチレベル並列インタイムアルゴリズムの適用により,層次元上での並列加速度が達成される。
これにより、ネットワークの深さが増加するにつれて並列スケーラビリティが劇的に向上する。
しかし、これを達成すると勾配の系統的なバイアスを引き起こす誤差が生じ、ミニマに近づくと収束が減少する。
我々は、この臨界遷移を検出し、シリアルトレーニングに切り替えるか、階層並列トレーニングの精度を体系的に向上させるアルゴリズムを開発した。
BERT, GPT2, ViT, および機械翻訳アーキテクチャを含む結果では, 並列アクセラレーションとシリアル事前学習の精度が向上し, 微調整は影響しない。
関連論文リスト
- Noise-Adaptive Layerwise Learning Rates: Accelerating Geometry-Aware Optimization for Deep Neural Network Training [31.259303817974693]
幾何認識最適化アルゴリズム上に,雑音適応型層別学習率スキームを導入する。
提案手法は, 選択したLMOがフライ時に誘導する双対ノルムの勾配分散を推定する。
我々のアルゴリズムは鋭い収束率を達成する。
論文 参考訳(メタデータ) (2025-10-15T18:42:13Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - PHN: Parallel heterogeneous network with soft gating for CTR prediction [2.9722444664527243]
本稿では並列構造を持つネットワークを構成する並列不均一ネットワーク(PHN)モデルを提案する。
トレーニング可能なパラメータとの残留リンクは、弱い勾配現象の影響を軽減するためにネットワークで使用される。
論文 参考訳(メタデータ) (2022-06-18T11:37:53Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions [36.82512331179322]
近年の研究では、異なるモダリティを扱うネットワークコンポーネントが、異なる速度でオーバーフィットし、一般化し、トレーニングの難しさを生んでいることが示唆されている。
本稿では,各層における勾配更新の規模を調整し,学習速度のバランスをとるため,LARS(Layer-wise Adaptive Rate Scaling)を提案する。
また、シーケンスワイドバッチ正規化(SBN)を用いて、内部の特徴分布を異なるモードから整列する。
論文 参考訳(メタデータ) (2020-11-15T13:04:25Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。