Fugu-MT 論文翻訳(概要): Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers

論文の概要: Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers

arxiv url: http://arxiv.org/abs/2405.10480v1
Date: Fri, 17 May 2024 00:52:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 17:11:53.616731
Title: Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers
Title（参考訳）: リーンアテンション - トランスフォーマーのデコード生成のためのハードウェア対応のスケーラブルアテンションメカニズム
Authors: Rya Sanovar, Srikant Bharadwaj, Renee St. Amant, Victor Rühle, Saravan Rajmohan,
Abstract要約: トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
参考スコア（独自算出の注目度）: 4.674454841332859
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Transformer-based models have emerged as one of the most widely used architectures for natural language processing, natural language generation, and image generation. The size of the state-of-the-art models has increased steadily reaching billions of parameters. These huge models are memory hungry and incur significant inference latency even on cutting edge AI-accelerators, such as GPUs. Specifically, the time and memory complexity of the attention operation is quadratic in terms of the total context length, i.e., prompt and output tokens. Thus, several optimizations such as key-value tensor caching and FlashAttention computation have been proposed to deliver the low latency demands of applications relying on such large models. However, these techniques do not cater to the computationally distinct nature of different phases during inference. To that end, we propose LeanAttention, a scalable technique of computing self-attention for the token-generation phase (decode-phase) of decoder-only transformer models. LeanAttention enables scaling the attention mechanism implementation for the challenging case of long context lengths by re-designing the execution flow for the decode-phase. We identify that the associative property of online softmax can be treated as a reduction operation thus allowing us to parallelize the attention computation over these large context lengths. We extend the "stream-K" style reduction of tiled calculation to self-attention to enable parallel computation resulting in an average of 2.6x attention execution speedup over FlashAttention-2 and up to 8.33x speedup for 512k context lengths.
Abstract（参考訳）: トランスフォーマーベースのモデルは、自然言語処理、自然言語生成、画像生成において最も広く使われているアーキテクチャの1つとして登場した。最先端モデルのサイズは、何十億ものパラメータに着実に達している。これらの巨大なモデルは、メモリが空腹で、GPUのような最先端のAIアクセラレータでも大きな推論レイテンシが生じる。具体的には、注意操作の時間と記憶の複雑さは、合計コンテキスト長、すなわちプロンプトと出力トークンの2次である。このようにして、キー値テンソルキャッシュやFlashAttention計算といったいくつかの最適化が提案され、そのような大きなモデルに依存するアプリケーションの低レイテンシ要求を実現する。しかし、これらの手法は推論中に異なる位相の計算学的に異なる性質に適合しない。そこで本研究では,デコーダのみのトランスフォーマーモデルのトークン生成フェーズ(デコードフェーズ)に対して,自己アテンションをスケーラブルに計算する手法であるLeanAttentionを提案する。 LeanAttentionは、デコードフェーズの実行フローを再設計することで、長いコンテキスト長の挑戦的なケースに対するアテンションメカニズムの実装をスケール可能にする。我々は,オンラインソフトマックスの連想特性を縮小演算として扱うことができ,これらの大きなコンテキスト長に対する注意計算を並列化することができることを確認した。これにより,FlashAttention-2よりも平均2.6倍,コンテキスト長が最大8.33倍に向上する。

関連論文リスト

Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Online Pseudo-average Shifting Attention(PASA) for Robust Low-precision LLM Inference: Algorithms and Numerical Analysis [15.71443217369106]
我々は、Flash Attentionに基づくPASAと呼ばれる低精度で数学的に等価なアルゴリズムを開発した。 PASAは、オンライン擬似平均シフトとグローバルリカバリの2つの新しいテクニックを紹介している。注意入力データの大きなバイアスと振幅が,数値オーバーフローに寄与する重要な要因であることがわかった。
論文参考訳（メタデータ） (2025-02-26T01:00:46Z)
Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques [0.0]
本稿では,トークンをグラフのノードとして認識し,注目マスクがグラフのエッジを決定する,注目のグラフコンピューティングビューを提案する。この観点から,注意機構を実装するグラフ処理アルゴリズムを開発した。我々のアルゴリズムは1つのNVIDIA A100 GPUで1億6000万の非常に長いシーケンス長を達成できます。
論文参考訳（メタデータ） (2025-01-31T22:05:00Z)
SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文参考訳（メタデータ） (2024-12-09T04:27:03Z)
MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文参考訳（メタデータ） (2024-11-20T19:44:26Z)
Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models [0.755189019348525]
自己注意によって駆動されるトランスフォーマーネットワークは、大規模言語モデルの中心である。生成トランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。本稿では、ゲインセルと呼ばれる新しいチャージベースのメモリをベースとした、独自の自己アテンションインメモリコンピューティングアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-09-28T11:00:11Z)
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
自己アテンションは、シーケンス長の複雑さのため、重要な計算ボトルネックである。本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出する。我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
論文参考訳（メタデータ） (2024-08-07T21:16:55Z)
Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文参考訳（メタデータ） (2024-07-17T11:15:16Z)
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (2024-06-26T08:44:36Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文参考訳（メタデータ） (2023-10-03T08:44:50Z)
Decreasing the Computing Time of Bayesian Optimization using Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。 BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文参考訳（メタデータ） (2023-09-08T14:05:56Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
Scaling Transformer to 1M tokens and beyond with RMT [5.60052250541419]
変圧器によって解ける問題の範囲の広い大きな制限は、入力サイズによる計算複雑性の2次スケーリングである。本研究では,入力コンテキスト長を線形にスケーリングしながら,事前学習したトランスフォーマーモデルの繰り返しメモリ拡張について検討する。提案手法は,検索精度を高く保ちつつ,前例のない200万トークンのシーケンスの情報をメモリに格納できることを実証する。
論文参考訳（メタデータ） (2023-04-19T16:18:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。