論文の概要: DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference
- arxiv url: http://arxiv.org/abs/2404.00242v2
- Date: Wed, 29 May 2024 18:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:35:08.100647
- Title: DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference
- Title(参考訳): DeFT:効率的な木構造LPM推論のためのFlashツリーアテンションによるデコーディング
- Authors: Jinwei Yao, Kaiqi Chen, Kexun Zhang, Jiaxuan You, Binhang Yuan, Zeke Wang, Tao Lin,
- Abstract要約: 木構造推論に適したIO対応ツリーアテンションアルゴリズムを提案する。
DeFTは3つの実用的なツリーベースのワークロードで、エンドツーエンド/アテンションのレイテンシで最大2.52/3.82倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 22.684773338989007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the increasing demand for tree-structured interactions with LLMs, we introduce DeFT (Decoding with Flash Tree-Attention), an IO-aware tree attention algorithm tailored for tree-structured inference. Unlike traditional sequence-based decoding, tree-structured decoding better accommodates modern task requirements, including self-consistency, few-shot prompting, multi-step reasoning, and multi-model/head coordination. However, existing sequence-based inference systems are ill-suited for tree-structured decoding, resulting in redundancy in computation, memory footprints, and memory access, thereby undermining inference efficiency. To address this challenge, DeFT maintains memory-efficient attention calculation with low memory footprints through two key stages: (1) QKV Preparation: We propose a KV-Guided Grouping Strategy with Tree Split to intelligently group QKV, optimizing GPU resource utilization while minimizing memory reads/writes for KV cache between GPU global memory and on-chip shared memory; (2)Attention Calculation: We compute partial attention of each QKV group in a fused kernel and employ a Tree-topology-aware Global Reduction strategy to obtain final attention. By reducing 73-99% KV cache IO and nearly 100% IO for partial results during attention calculation (e.g., Softmax), DeFT achieves up to 2.52/3.82x speedup in the end-to-end/attention latency across three practical tree-based workloads: namely, few-shot prompting, multi-step reasoning, and speculative decoding, over state-of-the-art attention algorithms.
- Abstract(参考訳): LLMとのツリー構造相互作用の需要が高まる中、木構造推論に適したIO対応木注目アルゴリズムであるDeFT(Decoding with Flash Tree-Attention)を導入する。
従来のシーケンスベースのデコーディングとは異なり、ツリー構造化デコーディングは、自己整合性、少数ショットプロンプト、マルチステップ推論、マルチモデル/ヘッド調整など、現代的なタスク要件に適合する。
しかし、既存のシーケンスベースの推論システムは木構造デコードには適していないため、計算、メモリフットプリント、メモリアクセスの冗長性が低下し、推論効率が低下する。
この課題に対処するために、DeFTは、メモリ効率の低いメモリフットプリントによるメモリ効率の低い注意計算を、(1)QKVの作成:木分割によるKV誘導グループ化戦略を提案し、GPUグローバルメモリとオンチップ共有メモリ間のKVキャッシュのメモリ読み込み/書き込みを最小化しながら、GPUリソース利用を最適化する;(2)注意計算:各QKVグループの部分的注意を融合カーネルで計算し、ツリートポロジーを意識したグローバルリコメンデーション戦略を用いて最終注目を得る。
注意計算中に73-99%のKVキャッシュIOと100%のIOを減らし(例えば、Softmax)、DeFTは3つの実用的なツリーベースワークロードで2.52/3.82倍の高速化を実現している。
関連論文リスト
- ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験によると、ChunkAttentionは、最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できる。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Single MCMC Chain Parallelisation on Decision Trees [0.9137554315375919]
本稿では,平均的なラップトップやパソコン上でMCMC決定ツリーチェーンを並列化する手法を提案する。
実験の結果,シリアルと並列実装が統計的に同一である場合,実行時間を18倍に向上できることがわかった。
論文 参考訳(メタデータ) (2022-07-26T07:07:51Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - PACSET (Packed Serialized Trees): Reducing Inference Latency for Tree
Ensemble Deployment [4.314299343332365]
モデルがまだメモリにロードされていない場合の推論遅延を最適化する,ツリーアンサンブルのシリアライズとデシリアライズを行う手法を提案する。
組込みシリアライズドツリー(PACSET)は、外部メモリアルゴリズムの原理を用いて、ツリーアンサンブルのレイアウトにおける参照ローカリティを符号化する。
その結果、各I/Oは有用なデータの割合が高くなり、対話型ワークロードの分類遅延が2~6倍削減される。
論文 参考訳(メタデータ) (2020-11-10T20:32:11Z) - A Vertex Cut based Framework for Load Balancing and Parallelism
Optimization in Multi-core Systems [15.913119724815733]
機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。
高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに悩まされることが多い。
マルチコアシステムにおけるデータ通信の削減と,これらのアプリケーションのスケーラビリティと性能向上のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T07:54:28Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z) - OctSqueeze: Octree-Structured Entropy Model for LiDAR Compression [77.8842824702423]
本稿では,LiDAR点雲のメモリフットプリントを削減するための新しいディープ圧縮アルゴリズムを提案する。
本手法は,メモリフットプリントを低減するために,点間の間隔と構造的冗長性を利用する。
我々のアルゴリズムは、自動運転車などのアプリケーションにおいて、LiDARポイントのオンボードおよびオフボードストレージを減らすために使用できる。
論文 参考訳(メタデータ) (2020-05-14T17:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。