論文の概要: EPAS: Efficient Training with Progressive Activation Sharing
- arxiv url: http://arxiv.org/abs/2601.19089v1
- Date: Tue, 27 Jan 2026 01:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.119766
- Title: EPAS: Efficient Training with Progressive Activation Sharing
- Title(参考訳): EPAS: プログレッシブ・アクティベーション・シェアリングによる効率的なトレーニング
- Authors: Rezaul Karim, Maryam Dialameh, Yang Liu, Boxing Chen, Walid Ahmed,
- Abstract要約: EPASは、デコーダ層をアクティベーション共有モードに切り替えることで、トレーニング中に徐々に共有領域を拡大する。
EPASのトレーニングされたモデルは、推論中に異なる計算予算に対して、アクティベーション共有の可変領域長を可能にする。
TinyLLaMAをアテンション共有モデルに変換するためにEPASを継続事前トレーニングに適用すると、平均精度が最大10%向上する。
- 参考スコア(独自算出の注目度): 18.36175652059169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel method for Efficient training with Progressive Activation Sharing (EPAS). This method bridges progressive training paradigm with the phenomenon of redundant QK (or KV ) activations across deeper layers of transformers. EPAS gradually grows a sharing region during training by switching decoder layers to activation sharing mode. This results in throughput increase due to reduced compute. To utilize deeper layer redundancy, the sharing region starts from the deep end of the model and grows towards the shallow end. The EPAS trained models allow for variable region lengths of activation sharing for different compute budgets during inference. Empirical evaluations with QK activation sharing in LLaMA models ranging from 125M to 7B parameters show up to an 11.1% improvement in training throughput and up to a 29% improvement in inference throughput while maintaining similar loss curve to the baseline models. Furthermore, applying EPAS in continual pretraining to transform TinyLLaMA into an attention-sharing model yields up to a 10% improvement in average accuracy over state-of-the-art methods, emphasizing the significance of progressive training in cross layer activation sharing models.
- Abstract(参考訳): 本稿では,EPAS(Progressive Activation Sharing)を用いた効率的なトレーニング手法を提案する。
この方法は、より深いトランス層にまたがる冗長QK(またはKV)アクティベーションの現象によって、プログレッシブトレーニングパラダイムを橋渡しする。
EPASは、デコーダ層をアクティベーション共有モードに切り替えることで、トレーニング中に徐々に共有領域を拡大する。
これにより、計算量の削減によりスループットが向上する。
深層冗長性を利用するために、共有領域はモデルの深部から始まり、浅い端に向かって成長する。
EPASのトレーニングされたモデルは、推論中に異なる計算予算に対して、アクティベーション共有の可変領域長を可能にする。
125Mから7BパラメータのLLaMAモデルにおけるQKアクティベーション共有による実証評価では、トレーニングスループットが11.1%向上し、推論スループットが29%向上し、ベースラインモデルと同じような損失曲線を維持している。
さらに、EPASを適用してTinyLLaMAをアテンション共有モデルに変換することにより、最先端の手法よりも平均精度が最大10%向上し、クロス層活性化共有モデルにおけるプログレッシブトレーニングの重要性を強調した。
関連論文リスト
- GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling [39.3376897081385]
既存の手法と組み合わせて使用可能なGPAS(Gradient-Preserving Activation Scaling)を提案する。
GPASは、その勾配を一定に保ちながら中間活性化をスケールダウンすることで機能する。
モデルサイズが71Mから1Bの範囲で実験した結果,GPASが一貫した性能向上を達成できた。
論文 参考訳(メタデータ) (2025-06-27T09:45:15Z) - SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks [0.0]
本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。
提案アルゴリズムは,既存手法に比べて収束速度,安定性,性能の向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T10:22:30Z) - Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。
本稿では,Sparse-Dense Learning (SSD)を提案する。
SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文 参考訳(メタデータ) (2024-10-04T13:53:33Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Your representations are in the network: composable and parallel
adaptation for large scale models [90.26965623489157]
InCAは、事前訓練されたモデルの任意のアクティベーション層にクロスタッチするトランスファー学習の軽量な方法である。
InCAは,1つのトップスコーリングアダプタを選択しても,フル微調整に匹敵する性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-03-07T18:12:24Z) - Ada-Segment: Automated Multi-loss Adaptation for Panoptic Segmentation [95.31590177308482]
我々は,トレーニング期間中に複数のトレーニング損失を柔軟に調整する自動マルチロス適応(ada-segment)を提案する。
エンドツーエンドアーキテクチャにより、ada-segmentはハイパーパラメータを再チューニングすることなく、異なるデータセットに一般化する。
Ada-Segmentは、バニラベースラインからCOCOval分割に2.7%のパノラマ品質(PQ)改善をもたらし、COCOテストデブ分割に最新の48.5%PQ、ADE20Kデータセットに32.9%PQを達成しました。
論文 参考訳(メタデータ) (2020-12-07T11:43:10Z) - Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-24T19:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。