Fugu-MT 論文翻訳(概要): Gated Linear Attention Transformers with Hardware-Efficient Training

論文の概要: Gated Linear Attention Transformers with Hardware-Efficient Training

arxiv url: http://arxiv.org/abs/2312.06635v4
Date: Thu, 15 Feb 2024 23:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 19:45:08.081443
Title: Gated Linear Attention Transformers with Hardware-Efficient Training
Title（参考訳）: ハードウェア効率トレーニングによるゲートリニアアテンショントランス
Authors: Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim
Abstract要約: 本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
参考スコア（独自算出の注目度）: 64.28699996850845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear-time inference complexity. However, linear attention generally underperforms ordinary softmax attention. Moreover, current implementations of linear attention lack I/O-awareness and are thus slower than highly optimized implementations of softmax attention. This work describes a hardware-efficient algorithm for linear attention that trades off memory movement against parallelizability. The resulting implementation, dubbed FLASHLINEARATTENTION, is faster than FLASHATTENTION-2(Dao, 2023) as a standalone layer even at short sequence lengths (e.g., 1K). We then generalize this algorithm to a more expressive variant of linear attention with data-dependent gates. When used as a replacement for the standard attention layer in Transformers, the resulting gated linear attention (GLA) Transformer is found to perform competitively against the LLaMA-architecture Transformer (Touvron et al., 2023) as well recent linear-time-inference baselines such as RetNet(Sun et al., 2023a) and Mamba (Gu & Dao, 2023) on moderate-scale language modeling experiments. GLA Transformer is especially effective at length generalization, enabling a model trained on 2K to generalize to 28K on PG19 without significant perplexity degradations. For training speed, the GLA Transformer has higher throughput than a similarly-sized Mamba model.
Abstract（参考訳）: 線形アテンションを持つ変換器は効率的な並列トレーニングを可能にするが、2D隠れ状態を持つRNNとして同時に定式化することができ、線形時間推論の複雑さを享受できる。しかし、一般に線形注意は通常のソフトマックスの注意を過小評価する。さらに, 線形アテンションの現在の実装はI/O認識に欠けており, ソフトマックスアテンションの高度に最適化された実装よりも遅い。本稿では,メモリ移動を並列性から切り離す線形注意のためのハードウェア効率のよいアルゴリズムについて述べる。その結果、FLASHLINEARATTENTIONと呼ばれる実装は、短いシーケンス長(1Kなど)でもスタンドアロン層としてFLASHATTENTION-2(Dao, 2023)よりも高速である。次に、このアルゴリズムをデータ依存ゲートを持つより表現力のある線形注意の変種に一般化する。トランスフォーマーの標準アテンション層の代わりに使用される場合、結果として得られるゲート型リニアアテンション(GLA)トランスフォーマーは、LLaMA-architecture Transformer (Touvron et al., 2023) やRetNet (Sun et al., 2023a) やMamba (Gu & Dao, 2023) といった最近の線形時間推論ベースラインに対して、中規模言語モデリング実験において競合的に動作する。 GLA変換器は特に長さの一般化に有効であり、2Kで訓練されたモデルでPG19上で28Kに一般化できる。トレーニング速度では、GLA Transformerは同様のサイズのMambaモデルよりもスループットが高い。

関連論文リスト

Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文参考訳（メタデータ） (2025-06-05T08:44:51Z)
Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels [14.756974816917584]
ゲーティングを備えた線形RNNは、最近、言語モデリングにおけるトランスフォーマーと比較して、競合する性能を示した。線形RNNのための新しいカーネルアルゴリズムである Tiled Flash Linear Attention (TFLA) を提案する。高速化ベンチマークでは、TFLAに基づく新しいmLSTMカーネルが、高度に最適化されたFlashアテンション、線形アテンション、およびMambaカーネルより優れていることを示す。
論文参考訳（メタデータ） (2025-03-18T16:09:47Z)
LLM Inference Acceleration via Efficient Operation Fusion [1.350507740574158]
Transformer-based Large Language Models (LLM) は数十億のパラメータを含み、トレーニングと推論に専用のハードウェアリソースを必要とする。 Transformerアーキテクチャに固有の重要な課題の1つは、多くの非線形変換をサポートする必要性である。このような集団的操作によるオーバーヘッドを完全に隠蔽できる極めて効率的な手法を提案する。
論文参考訳（メタデータ） (2025-02-24T23:42:37Z)
Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文参考訳（メタデータ） (2024-11-12T08:30:59Z)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文参考訳（メタデータ） (2024-06-10T17:24:42Z)
The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax Mimicry [24.198536617002667]
線形の注意はトランスフォーマーの効率を改善する可能性を示し、注意の2次複雑さを線形のシーケンス長に減らした。線形複雑性を保ちながらソフトマックスアテンションのスパイク特性とモノトニック特性を保持する学習可能な線形アテンションであるHedgehogを提案する。
論文参考訳（メタデータ） (2024-02-06T19:31:26Z)
Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文参考訳（メタデータ） (2023-11-04T11:38:53Z)
Linear attention is (maybe) all you need (to understand transformer optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文参考訳（メタデータ） (2023-10-02T10:48:42Z)
Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文参考訳（メタデータ） (2023-02-21T18:29:25Z)
The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文参考訳（メタデータ） (2022-10-19T07:15:35Z)
Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。 MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文参考訳（メタデータ） (2022-03-23T18:10:18Z)
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文参考訳（メタデータ） (2020-06-29T17:55:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。