Fugu-MT 論文翻訳(概要): Faster Causal Attention Over Large Sequences Through Sparse Flash Attention

論文の概要: Faster Causal Attention Over Large Sequences Through Sparse Flash Attention

arxiv url: http://arxiv.org/abs/2306.01160v1
Date: Thu, 1 Jun 2023 21:33:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 17:30:29.877662
Title: Faster Causal Attention Over Large Sequences Through Sparse Flash Attention
Title（参考訳）: スパースフラッシュアテンションによる大規模シーケンスに対するより高速な因果注意
Authors: Matteo Pagliardini, Daniele Paliotta, Martin Jaggi, Fran\c{c}ois Fleuret
Abstract要約: FlashAttentionを拡張して、大量の注目空間パターンに対応します。変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
参考スコア（独自算出の注目度）: 45.18552512844457
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Transformer-based language models have found many diverse applications requiring them to process sequences of increasing length. For these applications, the causal self-attention -- which is the only component scaling quadratically w.r.t. the sequence length -- becomes a central concern. While many works have proposed schemes to sparsify the attention patterns and reduce the computational overhead of self-attention, those are often limited by implementations concerns and end up imposing a simple and static structure over the attention matrix. Conversely, implementing more dynamic sparse attentions often results in runtimes significantly slower than computing the full attention using the Flash implementation from Dao et al. (2022). We extend FlashAttention to accommodate a large class of attention sparsity patterns that, in particular, encompass key/query dropping and hashing-based attention. This leads to implementations with no computational complexity overhead and a multi-fold runtime speedup on top of FlashAttention. Even with relatively low degrees of sparsity, our method improves visibly upon FlashAttention as the sequence length increases. Without sacrificing perplexity, we increase the training speed of a transformer language model by $2.0\times$ and $3.3\times$ for sequences of respectively $8k$ and $16k$ tokens.
Abstract（参考訳）: トランスフォーマーベースの言語モデルは、長いシーケンスを処理しなければならない様々なアプリケーションを見出している。これらのアプリケーションでは、シーケンス長を二次的にスケーリングする唯一のコンポーネントである因果的自己アテンション(causal self-attention)が中心的関心事となる。多くの作品では注意パターンのスパース化と自己注意の計算オーバーヘッドの削減が提案されているが、それらはしばしば実装上の懸念によって制限され、注意行列の上にシンプルで静的な構造を課すことになる。逆に、よりダイナミックなスパース・アテンションを実装すると、daoら(2022年)のflash実装を使ったフルアテンションの計算よりもランタイムが大幅に遅くなります。 FlashAttentionを拡張して、特にキー/クエリのドロップやハッシュベースのアテンションを含む、大規模な注目空間パターンに対応します。これにより、計算の複雑さのオーバーヘッドがなく、FlashAttention上でのランタイムの高速化が実現する。比較的低いスパース度であっても, 配列長の増加に伴ってフラッシュアテンションを可視的に改善する。複雑さを犠牲にすることなく、トランスフォーマー言語モデルのトレーニング速度を$2.0\times$と$3.3\times$で、それぞれ$8k$と$16k$トークンのシーケンスで増加させます。

関連論文リスト

Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference [21.47425403468577]
SpargeAttnは任意のモデルに対する普遍的スパースで量子化された注意である。本手法は,エンドツーエンドのメトリクスを犠牲にすることなく,言語,画像,ビデオ生成などの多様なモデルを大幅に高速化する。
論文参考訳（メタデータ） (2025-02-25T12:02:17Z)
Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques [0.0]
本稿では,トークンをグラフのノードとして認識し,注目マスクがグラフのエッジを決定する,注目のグラフコンピューティングビューを提案する。この観点から,注意機構を実装するグラフ処理アルゴリズムを開発した。我々のアルゴリズムは1つのNVIDIA A100 GPUで1億6000万の非常に長いシーケンス長を達成できます。
論文参考訳（メタデータ） (2025-01-31T22:05:00Z)
Flex Attention: A Programming Model for Generating Optimized Attention Kernels [5.489362130813523]
FlexAttentionは、コンパイラ駆動のプログラミングモデルで、数行のPyTorchコードで注目の変種を実装できます。我々は、FlexAttentionが注意変異の簡易な構成を可能にし、注意変異の爆発を解決する方法を実証する。
論文参考訳（メタデータ） (2024-12-07T01:46:38Z)
Star Attention: Efficient LLM Inference over Long Sequences [17.401430615714]
本稿では,複数のホストに注意を向けることで,計算効率を向上させる2相ブロックスパース近似であるStar Attentionを紹介する。 Star Attentionは、グローバルな注意でトレーニングされたほとんどのTransformerベースのLarge Language Modelとシームレスに統合され、95～100%の精度を維持しながら、メモリ要件と推論時間を最大11倍削減する。
論文参考訳（メタデータ） (2024-11-26T05:10:04Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文参考訳（メタデータ） (2024-07-25T00:27:07Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2024-06-17T18:34:58Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。異なるモデルサイズとシーケンス長について様々な実験を行った。
論文参考訳（メタデータ） (2024-01-09T16:27:28Z)
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。 FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文参考訳（メタデータ） (2022-05-27T17:53:09Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。