Fugu-MT 論文翻訳(概要): Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs

論文の概要: Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs

arxiv url: http://arxiv.org/abs/2403.08845v2
Date: Thu, 11 Jul 2024 20:07:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 05:07:34.772253
Title: Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs
Title（参考訳）: 分岐注意: LLMにおける共有プレフィックスによる大規模並列デコーディングの高速化
Authors: Ben Athiwaratkun, Sujan Kumar Gonugondla, Sanjay Krishna Gouda, Haifeng Qian, Hantian Ding, Qing Sun, Jun Wang, Jiacheng Guo, Liangfu Chen, Parminder Bhatia, Ramesh Nallapati, Sudipta Sengupta, Bing Xiang,
Abstract要約: Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
参考スコア（独自算出の注目度）: 39.16152482491236
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study introduces bifurcated attention, a method designed to enhance language model inference in shared-context batch decoding scenarios. Our approach addresses the challenge of redundant memory IO costs, a critical factor contributing to latency in high batch sizes and extended context lengths. Bifurcated attention achieves this by strategically dividing the attention mechanism during incremental decoding into two separate GEMM operations: one focusing on the KV cache from prefill, and another on the decoding process itself. While maintaining the computational load (FLOPs) of standard attention mechanisms, bifurcated attention ensures precise computation with significantly reduced memory IO. Our empirical results show over 2.1$\times$ speedup when sampling 16 output sequences and more than 6.2$\times$ speedup when sampling 32 sequences at context lengths exceeding 8k tokens on a 7B model that uses multi-head attention. The efficiency gains from bifurcated attention translate into lower latency, making it particularly suitable for real-time applications. For instance, it enables massively parallel answer generation without substantially increasing latency, thus enhancing performance when integrated with post-processing techniques such as re-ranking.
Abstract（参考訳）: 本研究では,共有コンテキストのバッチデコーディングシナリオにおいて,言語モデル推論を強化する手法であるバイフルケートアテンションを導入する。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。分岐した注意は、インクリメンタルデコード中の注意機構を、プリフィルからのKVキャッシュとデコードプロセス自体の2つの別々のGEMM操作に戦略的に分割することで、これを達成している。標準的な注意機構の計算負荷(FLOP)を維持しながら、二重注意はメモリIOを大幅に削減した正確な計算を保証する。実験の結果,16個の出力シーケンスをサンプリングすると2.1$\times$スピードアップ,32個のシーケンスをコンテキスト長でサンプリングすると6.2$\times$スピードアップが,マルチヘッドアテンションを用いた7Bモデル上で8kトークンを超えた場合に2.1$\times$スピードアップとなることがわかった。分岐処理による効率の向上は低レイテンシに変換され、特にリアルタイムアプリケーションに適している。例えば、レイテンシを大幅に増加させることなく、非常に並列な回答生成を可能にするため、再ランク付けのような後処理技術と統合された場合のパフォーマンスが向上する。

関連論文リスト

FlashForge: Ultra-Efficient Prefix-Aware Attention for LLM Decoding [44.47821531299985]
複数のプロンプト間のプレフィックス共有は、共有プレフィックスの操作を組み合わせる機会を提供する。デコーディングは、プレフィックスのキー値(KV)キャッシュに大量のメモリアクセスを必要とするメモリ集約プロセスである。我々は,共有KVキャッシュのメモリアクセスをデコードステージ,すなわちFlashForgeで組み合わせるための専用アテンションカーネルを提案する。
論文参考訳（メタデータ） (2025-05-23T10:03:28Z)
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation [23.130886760027586]
大規模言語モデル(LLM)サービスシステムでは、各要求の実行は、計算集約型プリフィルフェーズとメモリ集約型デコードフェーズの2つのフェーズで構成される。本稿では,資源利用と性能の向上を目的としたアダプティブ・デアグリゲーション・オフロード機構であるアドレナリンを提案する。実験の結果,アドレナリンのメモリ容量は2.28倍,メモリ帯域幅は2.07倍に向上した。
論文参考訳（メタデータ） (2025-03-26T13:48:35Z)
ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
ParallelCompは、長文外挿のためのトレーニング不要のメソッドである。コンテクスト長を4Kから128Kに拡張し、高いスループットを維持し、パープレキシティを保存する。我々の分析は、並列注意機構における注意バイアスに関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-02-20T07:10:43Z)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。 APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。 APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳（メタデータ） (2025-02-17T17:59:56Z)
SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文参考訳（メタデータ） (2024-12-09T04:27:03Z)
Star Attention: Efficient LLM Inference over Long Sequences [17.401430615714]
本稿では,複数のホストに注意を向けることで,計算効率を向上させる2相ブロックスパース近似であるStar Attentionを紹介する。 Star Attentionは、グローバルな注意でトレーニングされたほとんどのTransformerベースのLarge Language Modelとシームレスに統合され、95～100%の精度を維持しながら、メモリ要件と推論時間を最大11倍削減する。
論文参考訳（メタデータ） (2024-11-26T05:10:04Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection [23.20856449846164]
TokenSelectは、モデルに依存しない、訓練のない、効率的で正確な長文推論手法である。 TokenSelectの総合評価では、注意点の最大23.84倍、エンドツーエンドのレイテンシの最大2.28倍の高速化が示されている。
論文参考訳（メタデータ） (2024-11-05T07:56:24Z)
CritiPrefill: A Segment-wise Criticality-based Approach for Prefilling Acceleration in LLMs [8.649971923487835]
本稿では,CritiPrefillを提案する。 CritiPrefillは、入力シーケンスのクエリとKVキャッシュをセグメントとブロックに分割する。複数の長コンテキストデータセットの大規模な評価では、Llama3-8Bで2.7倍、Yi-9Bで3.0倍、単一のA100 GPUで128Kのコンテキスト長を持つ。
論文参考訳（メタデータ） (2024-09-19T06:09:56Z)
S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文参考訳（メタデータ） (2024-07-25T00:27:07Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文参考訳（メタデータ） (2024-03-14T12:51:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。