Fugu-MT 論文翻訳(概要): Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

論文の概要: Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

arxiv url: http://arxiv.org/abs/2401.04658v2
Date: Mon, 15 Jan 2024 14:57:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 23:20:43.892226
Title: Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models
Title（参考訳）: Lightning Attention-2: 大規模言語モデルにおける無制限シーケンス長処理自由ランチ
Authors: Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong
Abstract要約: 本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。異なるモデルサイズとシーケンス長について様々な実験を行った。
参考スコア（独自算出の注目度）: 20.78813311569383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Linear attention is an efficient attention mechanism that has recently emerged as a promising alternative to conventional softmax attention. With its ability to process tokens in linear computational complexities, linear attention, in theory, can handle sequences of unlimited length without sacrificing speed, i.e., maintaining a constant training speed for various sequence lengths with a fixed memory consumption. However, due to the issue with cumulative summation (cumsum), current linear attention algorithms cannot demonstrate their theoretical advantage in a causal setting. In this paper, we present Lightning Attention-2, the first linear attention implementation that enables linear attention to realize its theoretical computational benefits. To achieve this, we leverage the thought of tiling, separately handling the intra-block and inter-block components in linear attention calculation. Specifically, we utilize the conventional attention computation mechanism for the intra-blocks and apply linear attention kernel tricks for the inter-blocks. A tiling technique is adopted through both forward and backward procedures to take full advantage of the GPU hardware. We implement our algorithm in Triton to make it IO-aware and hardware-friendly. Various experiments are conducted on different model sizes and sequence lengths. Lightning Attention-2 retains consistent training and inference speed regardless of input sequence length and is significantly faster than other attention mechanisms. The source code is available at https://github.com/OpenNLPLab/lightning-attention.
Abstract（参考訳）: リニアアテンションは,従来型のソフトマックスアテンションに代わる有望な代替手段として最近登場した,効率的なアテンション機構である。線形計算の複雑さでトークンを処理する能力により、理論的には、線形注意は、速度を犠牲にすることなく無制限の長さのシーケンスを処理できる。しかし、累積和法(cumsum)の問題のため、現在の線形注意アルゴリズムは因果関係においてその理論的利点を示すことができない。本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attention-2を提案する。これを実現するために,線形注意計算においてブロック内コンポーネントとブロック間コンポーネントを別々に扱い,タイル化の考え方を利用する。具体的には,従来のブロック内アテンション計算機構を利用し,ブロック間における線形アテンションカーネルトリックを適用する。ティリング技術は、gpuハードウェアを最大限活用するために、前方と後方の両方の手順で採用されている。アルゴリズムをTritonに実装し、IO対応でハードウェアフレンドリーにしています。異なるモデルサイズとシーケンス長について様々な実験を行った。 Lightning Attention-2は、入力シーケンスの長さに関わらず、一貫したトレーニングと推論速度を保持し、他の注意機構よりもはるかに高速である。ソースコードはhttps://github.com/opennlplab/lightning-attentionで入手できる。

関連論文リスト

Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文参考訳（メタデータ） (2025-06-05T08:44:51Z)
SpargeAttention: Accurate and Training-free Sparse Attention Accelerating Any Model Inference [21.47425403468577]
SpargeAttnは任意のモデルに対する普遍的スパースで量子化された注意である。本手法は,エンドツーエンドのメトリクスを犠牲にすることなく,言語,画像,ビデオ生成などの多様なモデルを大幅に高速化する。
論文参考訳（メタデータ） (2025-02-25T12:02:17Z)
Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文参考訳（メタデータ） (2024-12-09T15:44:22Z)
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。 Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-17T07:07:09Z)
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
自己アテンションは、シーケンス長の複雑さのため、重要な計算ボトルネックである。本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出する。我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
論文参考訳（メタデータ） (2024-08-07T21:16:55Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention [19.618556742380086]
固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
論文参考訳（メタデータ） (2024-05-27T17:38:13Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level [30.681204292813998]
近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。我々は,近隣の注意を,標準的な注意と同様のバッチGEMM問題として表すことができることを示した。我々は、異なる空間軸をまたいだ注意をきめ細かく制御できる、融合したドット積アテンションカーネルを適応した、融合した近隣アテンションを開発する。
論文参考訳（メタデータ） (2024-03-07T17:35:58Z)
SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。推定アテンションマスクを用いたSparse linear attentionを提案する。
論文参考訳（メタデータ） (2023-10-03T03:56:26Z)
DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。 DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2022-11-24T03:06:36Z)
cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文参考訳（メタデータ） (2022-02-17T17:53:48Z)
Luna: Linear Unified Nested Attention [71.66026714473482]
本稿では,2つの重み付き線形注意関数でソフトマックスアテンションを近似する線形統合ネスト型注意機構であるLunaを提案する。具体的には、第1の注意関数により、Lunaは入力シーケンスを固定長のシーケンスにまとめ、次に、第2の注意関数を使用して充填シーケンスをアンパックする。従来のアテンション機構と比較して、Lunaは入力として固定長の付加シーケンスとそれに対応する出力を導入し、Lunaはアテンション操作を線形に行うことができる。
論文参考訳（メタデータ） (2021-06-03T01:47:26Z)
Scaling the Convex Barrier with Sparse Dual Algorithms [141.4085318878354]
本稿では,ニューラルネットワークバウンダリングのための2つの新しい2重アルゴリズムを提案する。どちらの方法も新しい緩和の強さを回復する: 厳密さと線形分離オラクル。実行時間のほんの一部で、既製のソルバよりも優れた境界を得ることができます。
論文参考訳（メタデータ） (2021-01-14T19:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。