論文の概要: Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads
- arxiv url: http://arxiv.org/abs/2407.17678v2
- Date: Tue, 27 Aug 2024 22:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 20:28:56.893924
- Title: Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads
- Title(参考訳): 意図的頭部の不均質なコンテキストシャーディングによる効率的なLDM訓練と訓練
- Authors: Xihui Lin, Yunan Zhang, Suyu Ge, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song,
- Abstract要約: 本研究では,異種コンテキスト分割を異なるアテンションヘッドに割り当てて分割・征服するアテンションアルゴリズムであるSparsely-Sharded (S2)アテンションを提案する。
S2-Attentionは、各アテンションヘッドを強化されたスパーシティパターンに従ってコンテキストの分割にのみ参加するように強制する一方、フルコンテキストはすべてのシャードの結合として保存される。
S2-Attentioncan は,(1) 壁面の注意速度を FlashAttention-2 より25.3倍に向上し,エンドツーエンドのトレーニング時間と10倍の推論遅延を6倍短縮することを示した。
- 参考スコア(独自算出の注目度): 50.03039827389727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing LLM training and inference frameworks struggle in boosting efficiency with sparsity while maintaining the integrity of context and model architecture. Inspired by the sharding concept in database and the fact that attention parallelizes over heads on accelerators, we propose Sparsely-Sharded (S2) Attention, an attention algorithm that allocates heterogeneous context partitions for different attention heads to divide and conquer. S2-Attention enforces each attention head to only attend to a partition of contexts following a strided sparsity pattern, while the full context is preserved as the union of all the shards. As attention heads are processed in separate thread blocks, the context reduction for each head can thus produce end-to-end speed-up and memory reduction. At inference, LLMs trained with S2-Attention can then take the KV cache reduction as free meals with guaranteed model quality preserve. In experiments, we show S2-Attentioncan provide as much as (1) 25.3X wall-clock attention speed-up over FlashAttention-2, resulting in 6X reduction in end-to-end training time and 10X inference latency, (2) on-par model training quality compared to default attention, (3)perfect needle retrieval accuracy over 32K context window. On top of the algorithm, we build DKernel, an LLM training and inference kernel library that allows users to customize sparsity patterns for their own models. We open-sourced DKerneland make it compatible with Megatron, Pytorch, and vLLM.
- Abstract(参考訳): 既存のLLMトレーニングと推論フレームワークは、コンテキストとモデルアーキテクチャの整合性を維持しながら、疎結合で効率を高めるのに苦労しています。
データベースにおけるシャーディングの概念と,アテンションがアクセル上のヘッドを並列化するという事実に着想を得て,アテンションアルゴリズムであるSparsely-Sharded (S2) アテンション(注意)を提案する。
S2-Attentionは、各アテンションヘッドを強化されたスパーシティパターンに従ってコンテキストの分割にのみ参加するように強制する一方、フルコンテキストはすべてのシャードの結合として保存される。
注目ヘッドは別個のスレッドブロックで処理されるため、各ヘッドのコンテキスト削減はエンドツーエンドのスピードアップとメモリ削減をもたらす。
推測すると、S2-Attentionで訓練されたLLMは、KVキャッシュの削減をモデル品質の保証された無料の食事とすることができる。
実験では,(1)S2-Attentioncanは,(1)FlashAttention-2より25.3倍の注目速度を実現し,エンドツーエンドのトレーニング時間と10倍の推論遅延を6倍に削減し,(2)既定のアテンションに比べてモデルのトレーニング品質が向上し,(3)32Kコンテキストウインドウ上での良質なニードル検索精度が向上した。
アルゴリズムの上にDKernelというLLMトレーニングおよび推論カーネルライブラリを構築し、ユーザが自身のモデルに対してスパーシティパターンをカスタマイズできるようにする。
私たちはDKernelandをオープンソースにしてMegatron、Pytorch、vLLMと互換性のあるものにしました。
関連論文リスト
- Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Self-Selected Attention Span for Accelerating Large Language Model Inference [10.305434265471938]
大規模言語モデル(LLM)は困難なタスクを解くことができる。
LLMの推論計算は、新しいトークンを生成する際に出席しなければならないトークンの数が増えるため、非常に非効率である。
LLMの問題解決能力を利用して、推論時間の効率を最適化する。
論文 参考訳(メタデータ) (2024-04-14T19:36:04Z) - OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental Learning [57.43911113915546]
FSCIL(Few-Shot Class-Incremental Learning)は、問題空間を限られたデータで拡張するパラダイムを導入する。
FSCILの手法は、データが漸進的に到着するにつれて、破滅的な忘れ込みの課題に直面している。
表現空間における特徴の直交性と対照的な学習という2つの基本原理に基づいて構築されたOrCoフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T13:30:48Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - CoSCL: Cooperation of Small Continual Learners is Stronger than a Big
One [40.32426713582231]
連続学習における可塑性学習の一般化誤差と記憶安定性を解析する。
複数の並列部分で逐次体験を処理できる頑健な生物学的学習システムに着想を得て,小連続学習者の連携を提案する。
CoSCLは、様々な連続学習アプローチを大きなマージンで改善することができる。
論文 参考訳(メタデータ) (2022-07-13T23:00:27Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。