Fugu-MT 論文翻訳(概要): Gated Linear Attention Transformers with Hardware-Efficient Training

論文の概要: Gated Linear Attention Transformers with Hardware-Efficient Training

arxiv url: http://arxiv.org/abs/2312.06635v2
Date: Tue, 12 Dec 2023 06:04:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 12:34:12.891031
Title: Gated Linear Attention Transformers with Hardware-Efficient Training
Title（参考訳）: ハードウェア効率トレーニングによるゲートリニアアテンショントランス
Authors: Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim
Abstract要約: 線形アテンションを持つトランスフォーマーは効率的な並列トレーニングを可能にするが、同時に2D隠れ状態を持つRNNとして定式化することができる。 RetNet (Sun et al., 2023) や TransNormerLLM (Qin et al., 2023a) のような最近の研究は、加法的 RNN 更新規則に大域的崩壊項を追加することにより、性能が大幅に向上すると考えている。並列形式のハードウェア効率の良いバージョンを開発し、シーケンスチャンク上でのブロック並列計算により、コアを引き続き活用する。
参考スコア（独自算出の注目度）: 64.28699996850845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear (with respect to output length) inference complexity. Recent works such as RetNet (Sun et al., 2023) and TransNormerLLM (Qin et al., 2023a) observe that adding a global decay term to the additive RNN update rule greatly improves performance, sometimes outperforming standard Transformers with softmax attention when trained at scale. In this work we show that adding a data-dependent gating mechanism further improves performance. We derive a parallel form of this gated linear attention layer that enables efficient training. However, a straightforward, numerically stable implementation of this parallel form requires generalized matrix multiplications in log-space for numerical stability, and thus cannot take advantage of tensor cores on modern GPUs which are optimized for standard matrix multiplications. We develop a hardware-efficient version of the parallel form that can still make use of tensor cores through block-parallel computations over sequence chunks. Experiments on moderate-scale language modeling (340M-parameter models trained on 15B tokens, 1.3B-parameter models trained on 100B tokens) show that gated linear attention (GLA) Transformers perform competitively against a strong LLaMA-architecture Transformer baseline (Touvron et al., 2023) as well as Mamba (Gu & Dao, 2023), a recently introduced state-space model with a data-dependent state transition mechanism. For training speed, our Triton-based implementation performs comparably to CUDA-optimized FlashAttention-2 (Dao, 2023) under the regular 2048 training length setting, while outperforming FlashAttention-2 when training on longer sequences beyond 4096.
Abstract（参考訳）: 線形アテンションを持つ変換器は効率的な並列トレーニングを可能にするが、同時に2D隠れ状態を持つRNNとして定式化できるため、(出力長に関して)線形推論の複雑さを享受できる。 RetNet (Sun et al., 2023) やTransNormerLLM (Qin et al., 2023a) のような最近の研究は、付加的なRNN更新規則に大域的な減衰項を加えることで性能が大幅に向上し、スケールで訓練するとソフトマックスの注意を払って標準のトランスフォーマーを上回ることがあることを観察している。本研究では,データ依存型ゲーティング機構の追加によりパフォーマンスがさらに向上することを示す。効率的なトレーニングを可能にするこのゲート付き線形注意層の並列形式を導出する。しかし、この並列形式の単純で数値的に安定な実装では、数値安定性のためにログ空間における一般化された行列の乗算が必要となるため、標準行列の乗算に最適化された現代のgpuではテンソルコアを活用できない。並列形式のハードウェア効率の良いバージョンを開発し、シーケンスチャンク上でのブロック並列計算によりテンソルコアを引き続き活用する。 15Bトークンでトレーニングされた中規模言語モデリング(340Mパラメータモデル、100Bトークンでトレーニングされた1.3Bパラメータモデル)の実験では、ゲート型線形アテンション(GLA)トランスフォーマーが、データ依存状態遷移機構を備えた最近導入された状態空間モデルであるMamba(Gu & Dao, 2023)と同様に、強力なLLaMAアーキテクチャトランスフォーマーベースライン(Touvron et al., 2023)と競合して動作することを示した。トレーニング速度では, CUDA最適化FlashAttention-2(Dao, 2023)に対して, 通常の2048トレーニング長設定で比較して, 4096以上の長いシーケンスでのトレーニングでは, FlashAttention-2よりも優れていた。

関連論文リスト

Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文参考訳（メタデータ） (2025-06-05T08:44:51Z)
Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels [14.756974816917584]
ゲーティングを備えた線形RNNは、最近、言語モデリングにおけるトランスフォーマーと比較して、競合する性能を示した。線形RNNのための新しいカーネルアルゴリズムである Tiled Flash Linear Attention (TFLA) を提案する。高速化ベンチマークでは、TFLAに基づく新しいmLSTMカーネルが、高度に最適化されたFlashアテンション、線形アテンション、およびMambaカーネルより優れていることを示す。
論文参考訳（メタデータ） (2025-03-18T16:09:47Z)
LLM Inference Acceleration via Efficient Operation Fusion [1.350507740574158]
Transformer-based Large Language Models (LLM) は数十億のパラメータを含み、トレーニングと推論に専用のハードウェアリソースを必要とする。 Transformerアーキテクチャに固有の重要な課題の1つは、多くの非線形変換をサポートする必要性である。このような集団的操作によるオーバーヘッドを完全に隠蔽できる極めて効率的な手法を提案する。
論文参考訳（メタデータ） (2025-02-24T23:42:37Z)
Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文参考訳（メタデータ） (2024-11-12T08:30:59Z)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文参考訳（メタデータ） (2024-06-10T17:24:42Z)
The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax Mimicry [24.198536617002667]
線形の注意はトランスフォーマーの効率を改善する可能性を示し、注意の2次複雑さを線形のシーケンス長に減らした。線形複雑性を保ちながらソフトマックスアテンションのスパイク特性とモノトニック特性を保持する学習可能な線形アテンションであるHedgehogを提案する。
論文参考訳（メタデータ） (2024-02-06T19:31:26Z)
Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文参考訳（メタデータ） (2023-11-04T11:38:53Z)
Linear attention is (maybe) all you need (to understand transformer optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文参考訳（メタデータ） (2023-10-02T10:48:42Z)
Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文参考訳（メタデータ） (2023-02-21T18:29:25Z)
The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文参考訳（メタデータ） (2022-10-19T07:15:35Z)
Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。 MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文参考訳（メタデータ） (2022-03-23T18:10:18Z)
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文参考訳（メタデータ） (2020-06-29T17:55:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。