論文の概要: Gated Linear Attention Transformers with Hardware-Efficient Training
- arxiv url: http://arxiv.org/abs/2312.06635v4
- Date: Thu, 15 Feb 2024 23:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:45:08.081443
- Title: Gated Linear Attention Transformers with Hardware-Efficient Training
- Title(参考訳): ハードウェア効率トレーニングによるゲートリニアアテンショントランス
- Authors: Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim
- Abstract要約: 本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
- 参考スコア(独自算出の注目度): 64.28699996850845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers with linear attention allow for efficient parallel training but
can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden
states, thus enjoying linear-time inference complexity. However, linear
attention generally underperforms ordinary softmax attention. Moreover, current
implementations of linear attention lack I/O-awareness and are thus slower than
highly optimized implementations of softmax attention. This work describes a
hardware-efficient algorithm for linear attention that trades off memory
movement against parallelizability. The resulting implementation, dubbed
FLASHLINEARATTENTION, is faster than FLASHATTENTION-2(Dao, 2023) as a
standalone layer even at short sequence lengths (e.g., 1K). We then generalize
this algorithm to a more expressive variant of linear attention with
data-dependent gates. When used as a replacement for the standard attention
layer in Transformers, the resulting gated linear attention (GLA) Transformer
is found to perform competitively against the LLaMA-architecture Transformer
(Touvron et al., 2023) as well recent linear-time-inference baselines such as
RetNet(Sun et al., 2023a) and Mamba (Gu & Dao, 2023) on moderate-scale language
modeling experiments. GLA Transformer is especially effective at length
generalization, enabling a model trained on 2K to generalize to 28K on PG19
without significant perplexity degradations. For training speed, the GLA
Transformer has higher throughput than a similarly-sized Mamba model.
- Abstract(参考訳): 線形アテンションを持つ変換器は効率的な並列トレーニングを可能にするが、2D隠れ状態を持つRNNとして同時に定式化することができ、線形時間推論の複雑さを享受できる。
しかし、一般に線形注意は通常のソフトマックスの注意を過小評価する。
さらに, 線形アテンションの現在の実装はI/O認識に欠けており, ソフトマックスアテンションの高度に最適化された実装よりも遅い。
本稿では,メモリ移動を並列性から切り離す線形注意のためのハードウェア効率のよいアルゴリズムについて述べる。
その結果、FLASHLINEARATTENTIONと呼ばれる実装は、短いシーケンス長(1Kなど)でもスタンドアロン層としてFLASHATTENTION-2(Dao, 2023)よりも高速である。
次に、このアルゴリズムをデータ依存ゲートを持つより表現力のある線形注意の変種に一般化する。
トランスフォーマーの標準アテンション層の代わりに使用される場合、結果として得られるゲート型リニアアテンション(GLA)トランスフォーマーは、LLaMA-architecture Transformer (Touvron et al., 2023) やRetNet (Sun et al., 2023a) やMamba (Gu & Dao, 2023) といった最近の線形時間推論ベースラインに対して、中規模言語モデリング実験において競合的に動作する。
GLA変換器は特に長さの一般化に有効であり、2Kで訓練されたモデルでPG19上で28Kに一般化できる。
トレーニング速度では、GLA Transformerは同様のサイズのMambaモデルよりもスループットが高い。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax
Mimicry [24.198536617002667]
線形の注意はトランスフォーマーの効率を改善する可能性を示し、注意の2次複雑さを線形のシーケンス長に減らした。
線形複雑性を保ちながらソフトマックスアテンションのスパイク特性とモノトニック特性を保持する学習可能な線形アテンションであるHedgehogを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:31:26Z) - Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。
既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。
本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文 参考訳(メタデータ) (2023-11-04T11:38:53Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Transformers are RNNs: Fast Autoregressive Transformers with Linear
Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。
我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。
線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文 参考訳(メタデータ) (2020-06-29T17:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。