論文の概要: First Attentions Last: Better Exploiting First Attentions for Efficient Transformer Training
- arxiv url: http://arxiv.org/abs/2510.14614v1
- Date: Thu, 16 Oct 2025 12:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.84541
- Title: First Attentions Last: Better Exploiting First Attentions for Efficient Transformer Training
- Title(参考訳): ファーストアテンション:効率的なトランスフォーマートレーニングのためのファーストアテンションの改善
- Authors: Gyudong Kim, Hyukju Na, Jin Hyeon Kim, Hyunsung Jang, Jaemin Park, Jaegi Hwang, Namkoo Ha, Seungryong Kim, Young Geun Kim,
- Abstract要約: 既存の変圧器の設計は、特に並列性(TP)において、大きな通信オーバーヘッドに悩まされている。
FAL(First Attentions Last)は,第1のMHA出力を次のレイヤの入力にリダイレクトし,ブロックごとのMHA-MLP接続を除去する,効率的なトランスフォーマアーキテクチャである。
FALはマルチGPUトレーニング時間を最大44%削減し、シングルGPUスループットを最大1.18倍改善し、ベースラインのGPTよりも複雑な処理を実現する。
- 参考スコア(独自算出の注目度): 32.292925864710156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As training billion-scale transformers becomes increasingly common, employing multiple distributed GPUs along with parallel training methods has become a standard practice. However, existing transformer designs suffer from significant communication overhead, especially in Tensor Parallelism (TP), where each block's MHA-MLP connection requires an all-reduce communication. Through our investigation, we show that the MHA-MLP connections can be bypassed for efficiency, while the attention output of the first layer can serve as an alternative signal for the bypassed connection. Motivated by the observations, we propose FAL (First Attentions Last), an efficient transformer architecture that redirects the first MHA output to the MLP inputs of the following layers, eliminating the per-block MHA-MLP connections. This removes the all-reduce communication and enables parallel execution of MHA and MLP on a single GPU. We also introduce FAL+, which adds the normalized first attention output to the MHA outputs of the following layers to augment the MLP input for the model quality. Our evaluation shows that FAL reduces multi-GPU training time by up to 44%, improves single-GPU throughput by up to 1.18x, and achieves better perplexity compared to the baseline GPT. FAL+ achieves even lower perplexity without increasing the training time than the baseline.
- Abstract(参考訳): 数十億ドル規模のトランスフォーマーのトレーニングが一般的になるにつれて、並列トレーニングメソッドとともに、複数の分散GPUを採用することが標準的なプラクティスとなっている。
しかし、既存のトランスフォーマー設計は通信オーバーヘッドに悩まされており、特にテンソル並列(TP)では各ブロックのMHA-MLP接続は全リデュース通信を必要とする。
本研究により,MHA-MLP接続は効率良くバイパス可能である一方で,第1層の注意出力はバイパス接続の代替信号として機能することを示す。
本研究の目的は,FAL (First Attentions Last) を用いて,MHAの出力を次のレイヤのMLP入力にリダイレクトし,ブロックごとのMHA-MLP接続を除去するトランスフォーマアーキテクチャを提案することである。
これにより、全リデュース通信が取り除かれ、単一のGPU上でMHAとMLPの並列実行が可能になる。
また、モデル品質の MLP 入力を増大させるために、以下の階層の MHA 出力に正規化された第1の注意出力を追加する FAL+ も導入する。
評価の結果、FALはマルチGPUトレーニング時間を最大44%削減し、シングルGPUスループットを最大1.18倍改善し、ベースラインのGPTに比べて難易度が向上した。
FAL+は、ベースラインよりもトレーニング時間を増やすことなく、さらに低いパープレキシティを実現する。
関連論文リスト
- MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - MLP Fusion: Towards Efficient Fine-tuning of Dense and Mixture-of-Experts Language Models [33.86069537521178]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
微調整に特化して設計されたワンショット圧縮技術を提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。