論文の概要: Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence
Lengths in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.04658v2
- Date: Mon, 15 Jan 2024 14:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 23:20:43.892226
- Title: Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence
Lengths in Large Language Models
- Title(参考訳): Lightning Attention-2: 大規模言語モデルにおける無制限シーケンス長処理自由ランチ
- Authors: Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong
- Abstract要約: 本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。
具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。
異なるモデルサイズとシーケンス長について様々な実験を行った。
- 参考スコア(独自算出の注目度): 20.78813311569383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention is an efficient attention mechanism that has recently
emerged as a promising alternative to conventional softmax attention. With its
ability to process tokens in linear computational complexities, linear
attention, in theory, can handle sequences of unlimited length without
sacrificing speed, i.e., maintaining a constant training speed for various
sequence lengths with a fixed memory consumption. However, due to the issue
with cumulative summation (cumsum), current linear attention algorithms cannot
demonstrate their theoretical advantage in a causal setting. In this paper, we
present Lightning Attention-2, the first linear attention implementation that
enables linear attention to realize its theoretical computational benefits. To
achieve this, we leverage the thought of tiling, separately handling the
intra-block and inter-block components in linear attention calculation.
Specifically, we utilize the conventional attention computation mechanism for
the intra-blocks and apply linear attention kernel tricks for the inter-blocks.
A tiling technique is adopted through both forward and backward procedures to
take full advantage of the GPU hardware. We implement our algorithm in Triton
to make it IO-aware and hardware-friendly. Various experiments are conducted on
different model sizes and sequence lengths. Lightning Attention-2 retains
consistent training and inference speed regardless of input sequence length and
is significantly faster than other attention mechanisms. The source code is
available at https://github.com/OpenNLPLab/lightning-attention.
- Abstract(参考訳): リニアアテンションは,従来型のソフトマックスアテンションに代わる有望な代替手段として最近登場した,効率的なアテンション機構である。
線形計算の複雑さでトークンを処理する能力により、理論的には、線形注意は、速度を犠牲にすることなく無制限の長さのシーケンスを処理できる。
しかし、累積和法(cumsum)の問題のため、現在の線形注意アルゴリズムは因果関係においてその理論的利点を示すことができない。
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attention-2を提案する。
これを実現するために,線形注意計算においてブロック内コンポーネントとブロック間コンポーネントを別々に扱い,タイル化の考え方を利用する。
具体的には,従来のブロック内アテンション計算機構を利用し,ブロック間における線形アテンションカーネルトリックを適用する。
ティリング技術は、gpuハードウェアを最大限活用するために、前方と後方の両方の手順で採用されている。
アルゴリズムをTritonに実装し、IO対応でハードウェアフレンドリーにしています。
異なるモデルサイズとシーケンス長について様々な実験を行った。
Lightning Attention-2は、入力シーケンスの長さに関わらず、一貫したトレーニングと推論速度を保持し、他の注意機構よりもはるかに高速である。
ソースコードはhttps://github.com/opennlplab/lightning-attentionで入手できる。
関連論文リスト
- Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Towards Joint Intent Detection and Slot Filling via Higher-order
Attention [47.78365472691051]
Intent Detection (ID) と Slot fill (SF) は、音声言語理解(SLU)における2つの主要なタスクである。
本稿では,文脈的およびチャネル的両線的アテンション分布を利用したバイリニアアテンションブロックを提案する。
我々のアプローチは最先端のアプローチと比較して改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-18T09:50:23Z) - Luna: Linear Unified Nested Attention [71.66026714473482]
本稿では,2つの重み付き線形注意関数でソフトマックスアテンションを近似する線形統合ネスト型注意機構であるLunaを提案する。
具体的には、第1の注意関数により、Lunaは入力シーケンスを固定長のシーケンスにまとめ、次に、第2の注意関数を使用して充填シーケンスをアンパックする。
従来のアテンション機構と比較して、Lunaは入力として固定長の付加シーケンスとそれに対応する出力を導入し、Lunaはアテンション操作を線形に行うことができる。
論文 参考訳(メタデータ) (2021-06-03T01:47:26Z) - Scaling the Convex Barrier with Sparse Dual Algorithms [141.4085318878354]
本稿では,ニューラルネットワークバウンダリングのための2つの新しい2重アルゴリズムを提案する。
どちらの方法も新しい緩和の強さを回復する: 厳密さと線形分離オラクル。
実行時間のほんの一部で、既製のソルバよりも優れた境界を得ることができます。
論文 参考訳(メタデータ) (2021-01-14T19:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。