論文の概要: Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping
- arxiv url: http://arxiv.org/abs/2603.23998v1
- Date: Wed, 25 Mar 2026 06:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.171045
- Title: Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping
- Title(参考訳): スパース成長変圧器:プログレッシブアテンションループによる訓練時スパース深さ割当
- Authors: Yao Chen, Yilong Chen, Yinqi Yang, Junyuan Shang, Zhenyu Zhang, Zefeng Zhang, Shuaiyi Nie, Shuohuan Wang, Yu Sun, Hua Wu, HaiFeng Wang, Tingwen Liu,
- Abstract要約: トランスフォーマーの効果的な深さを高めるための既存のアプローチは、パラメータの再利用に依存している。
スパース成長変圧器(SGT)について紹介する。
SGTはトレーニング時のスパース深さ割り当てフレームワークで、より深い層からより浅い層まで徐々に繰り返しを拡張する。
- 参考スコア(独自算出の注目度): 43.89065405956364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches to increasing the effective depth of Transformers predominantly rely on parameter reuse, extending computation through recursive execution. Under this paradigm, the network structure remains static along the training timeline, and additional computational depth is uniformly assigned to entire blocks at the parameter level. This rigidity across training time and parameter space leads to substantial computational redundancy during training. In contrast, we argue that depth allocation during training should not be a static preset, but rather a progressively growing structural process. Our systematic analysis reveals a deep-to-shallow maturation trajectory across layers, where high-entropy attention heads play a crucial role in semantic integration. Motivated by this observation, we introduce the Sparse Growing Transformer (SGT). SGT is a training-time sparse depth allocation framework that progressively extends recurrence from deeper to shallower layers via targeted attention looping on informative heads. This mechanism induces structural sparsity by selectively increasing depth only for a small subset of parameters as training evolves. Extensive experiments across multiple parameter scales demonstrate that SGT consistently outperforms training-time static block-level looping baselines under comparable settings, while reducing the additional training FLOPs overhead from approximately 16--20% to only 1--3% relative to a standard Transformer backbone.
- Abstract(参考訳): トランスフォーマーの効果的な深さを高めるための既存のアプローチは、主にパラメータの再利用に依存し、再帰的な実行を通じて計算を拡張する。
このパラダイムの下では、ネットワーク構造はトレーニングスケジュールに沿って静的のままであり、パラメータレベルでのブロック全体に計算深度を均一に割り当てる。
このトレーニング時間とパラメータ空間の剛性は、トレーニング中にかなりの計算冗長性をもたらす。
対照的に、トレーニング中の深さの割り当ては静的なプリセットではなく、徐々に増加する構造的プロセスであるべきだ、と我々は主張する。
系統的な解析により,階層間の深層から浅層への成熟軌道が明らかとなり,高いエントロピー・アテンション・ヘッドがセマンティック・インテグレーションにおいて重要な役割を担っている。
本研究の目的は,Sparse Growing Transformer (SGT) の導入である。
SGTはトレーニング時のスパース深さ割り当てフレームワークで、情報的ヘッドに対するターゲットアテンションループを通じて、より深い層からより浅い層へのリカレンスを段階的に拡張する。
このメカニズムは、トレーニングが進むにつれて、パラメータの小さなサブセットに対してのみ、深さを選択的に増加させることで、構造的疎結合を誘導する。
複数のパラメータスケールにわたる大規模な実験により、SGTはトレーニング時の静的ブロックレベルのループベースラインを同等の設定で一貫して上回り、追加のトレーニングFLOPのオーバーヘッドを標準のTransformerバックボーンと比較して約16-20%から1-3%に削減した。
関連論文リスト
- Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks [0.0]
本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。
その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
論文 参考訳(メタデータ) (2026-02-11T03:57:46Z) - Topology-Aware Revival for Efficient Sparse Training [25.326221502692192]
Topology-Aware Revival (TAR) は、動的に切り替えることなく静的なスペーシングを改善する軽量のワンショット・ポスト・プルーニング・プロシージャである。
TARは静的スパースベースラインの最終的なリターンを最大+37.9%改善し、動的スパーストレーニングベースラインを+13.5%向上させた。
論文 参考訳(メタデータ) (2026-02-04T03:01:12Z) - Layer-Parallel Training for Transformers [3.799206695592991]
マルチレベル層並列手法を用いたトランスフォーマーの新しいトレーニング手法を提案する。
トレーニングの前・後処理フェーズに対するマルチレベル並列インタイムアルゴリズムの適用により,層次元の並列加速度が達成される。
我々は、この臨界遷移を検出し、シリアルトレーニングに切り替えるか、階層並列トレーニングの精度を体系的に向上させるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-01-13T23:12:53Z) - Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
Low-Rank Adaptation (LoRA) と ReLoRA は低ランク構造で課題に直面している。
予備学習におけるメモリ使用量の最適化を目的としたスパーススペクトルトレーニング(SST)を提案する。
SSTは、他の低ランクメソッドとフルランクトレーニングの間の難易度ギャップを97.4%削減する。
論文 参考訳(メタデータ) (2024-05-24T11:59:41Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。