論文の概要: Gated Linear Attention Transformers with Hardware-Efficient Training
- arxiv url: http://arxiv.org/abs/2312.06635v2
- Date: Tue, 12 Dec 2023 06:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:34:12.891031
- Title: Gated Linear Attention Transformers with Hardware-Efficient Training
- Title(参考訳): ハードウェア効率トレーニングによるゲートリニアアテンショントランス
- Authors: Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim
- Abstract要約: 線形アテンションを持つトランスフォーマーは効率的な並列トレーニングを可能にするが、同時に2D隠れ状態を持つRNNとして定式化することができる。
RetNet (Sun et al., 2023) や TransNormerLLM (Qin et al., 2023a) のような最近の研究は、加法的 RNN 更新規則に大域的崩壊項を追加することにより、性能が大幅に向上すると考えている。
並列形式のハードウェア効率の良いバージョンを開発し、シーケンスチャンク上でのブロック並列計算により、コアを引き続き活用する。
- 参考スコア(独自算出の注目度): 64.28699996850845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers with linear attention allow for efficient parallel training but
can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden
states, thus enjoying linear (with respect to output length) inference
complexity. Recent works such as RetNet (Sun et al., 2023) and TransNormerLLM
(Qin et al., 2023a) observe that adding a global decay term to the additive RNN
update rule greatly improves performance, sometimes outperforming standard
Transformers with softmax attention when trained at scale. In this work we show
that adding a data-dependent gating mechanism further improves performance. We
derive a parallel form of this gated linear attention layer that enables
efficient training. However, a straightforward, numerically stable
implementation of this parallel form requires generalized matrix
multiplications in log-space for numerical stability, and thus cannot take
advantage of tensor cores on modern GPUs which are optimized for standard
matrix multiplications. We develop a hardware-efficient version of the parallel
form that can still make use of tensor cores through block-parallel
computations over sequence chunks. Experiments on moderate-scale language
modeling (340M-parameter models trained on 15B tokens, 1.3B-parameter models
trained on 100B tokens) show that gated linear attention (GLA) Transformers
perform competitively against a strong LLaMA-architecture Transformer baseline
(Touvron et al., 2023) as well as Mamba (Gu & Dao, 2023), a recently introduced
state-space model with a data-dependent state transition mechanism. For
training speed, our Triton-based implementation performs comparably to
CUDA-optimized FlashAttention-2 (Dao, 2023) under the regular 2048 training
length setting, while outperforming FlashAttention-2 when training on longer
sequences beyond 4096.
- Abstract(参考訳): 線形アテンションを持つ変換器は効率的な並列トレーニングを可能にするが、同時に2D隠れ状態を持つRNNとして定式化できるため、(出力長に関して)線形推論の複雑さを享受できる。
RetNet (Sun et al., 2023) やTransNormerLLM (Qin et al., 2023a) のような最近の研究は、付加的なRNN更新規則に大域的な減衰項を加えることで性能が大幅に向上し、スケールで訓練するとソフトマックスの注意を払って標準のトランスフォーマーを上回ることがあることを観察している。
本研究では,データ依存型ゲーティング機構の追加によりパフォーマンスがさらに向上することを示す。
効率的なトレーニングを可能にするこのゲート付き線形注意層の並列形式を導出する。
しかし、この並列形式の単純で数値的に安定な実装では、数値安定性のためにログ空間における一般化された行列の乗算が必要となるため、標準行列の乗算に最適化された現代のgpuではテンソルコアを活用できない。
並列形式のハードウェア効率の良いバージョンを開発し、シーケンスチャンク上でのブロック並列計算によりテンソルコアを引き続き活用する。
15Bトークンでトレーニングされた中規模言語モデリング(340Mパラメータモデル、100Bトークンでトレーニングされた1.3Bパラメータモデル)の実験では、ゲート型線形アテンション(GLA)トランスフォーマーが、データ依存状態遷移機構を備えた最近導入された状態空間モデルであるMamba(Gu & Dao, 2023)と同様に、強力なLLaMAアーキテクチャトランスフォーマーベースライン(Touvron et al., 2023)と競合して動作することを示した。
トレーニング速度では, CUDA最適化FlashAttention-2(Dao, 2023)に対して, 通常の2048トレーニング長設定で比較して, 4096以上の長いシーケンスでのトレーニングでは, FlashAttention-2よりも優れていた。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax
Mimicry [24.198536617002667]
線形の注意はトランスフォーマーの効率を改善する可能性を示し、注意の2次複雑さを線形のシーケンス長に減らした。
線形複雑性を保ちながらソフトマックスアテンションのスパイク特性とモノトニック特性を保持する学習可能な線形アテンションであるHedgehogを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:31:26Z) - Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。
既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。
本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文 参考訳(メタデータ) (2023-11-04T11:38:53Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Transformers are RNNs: Fast Autoregressive Transformers with Linear
Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。
我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。
線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文 参考訳(メタデータ) (2020-06-29T17:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。