Fugu-MT 論文翻訳(概要): Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads

論文の概要: Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads

arxiv url: http://arxiv.org/abs/2407.17678v2
Date: Tue, 27 Aug 2024 22:06:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 20:28:56.893924
Title: Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads
Title（参考訳）: 意図的頭部の不均質なコンテキストシャーディングによる効率的なLDM訓練と訓練
Authors: Xihui Lin, Yunan Zhang, Suyu Ge, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song,
Abstract要約: 本研究では,異種コンテキスト分割を異なるアテンションヘッドに割り当てて分割・征服するアテンションアルゴリズムであるSparsely-Sharded (S2)アテンションを提案する。 S2-Attentionは、各アテンションヘッドを強化されたスパーシティパターンに従ってコンテキストの分割にのみ参加するように強制する一方、フルコンテキストはすべてのシャードの結合として保存される。 S2-Attentioncan は,(1) 壁面の注意速度を FlashAttention-2 より25.3倍に向上し,エンドツーエンドのトレーニング時間と10倍の推論遅延を6倍短縮することを示した。
参考スコア（独自算出の注目度）: 50.03039827389727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing LLM training and inference frameworks struggle in boosting efficiency with sparsity while maintaining the integrity of context and model architecture. Inspired by the sharding concept in database and the fact that attention parallelizes over heads on accelerators, we propose Sparsely-Sharded (S2) Attention, an attention algorithm that allocates heterogeneous context partitions for different attention heads to divide and conquer. S2-Attention enforces each attention head to only attend to a partition of contexts following a strided sparsity pattern, while the full context is preserved as the union of all the shards. As attention heads are processed in separate thread blocks, the context reduction for each head can thus produce end-to-end speed-up and memory reduction. At inference, LLMs trained with S2-Attention can then take the KV cache reduction as free meals with guaranteed model quality preserve. In experiments, we show S2-Attentioncan provide as much as (1) 25.3X wall-clock attention speed-up over FlashAttention-2, resulting in 6X reduction in end-to-end training time and 10X inference latency, (2) on-par model training quality compared to default attention, (3)perfect needle retrieval accuracy over 32K context window. On top of the algorithm, we build DKernel, an LLM training and inference kernel library that allows users to customize sparsity patterns for their own models. We open-sourced DKerneland make it compatible with Megatron, Pytorch, and vLLM.
Abstract（参考訳）: 既存のLLMトレーニングと推論フレームワークは、コンテキストとモデルアーキテクチャの整合性を維持しながら、疎結合で効率を高めるのに苦労しています。データベースにおけるシャーディングの概念と,アテンションがアクセル上のヘッドを並列化するという事実に着想を得て,アテンションアルゴリズムであるSparsely-Sharded (S2) アテンション(注意)を提案する。 S2-Attentionは、各アテンションヘッドを強化されたスパーシティパターンに従ってコンテキストの分割にのみ参加するように強制する一方、フルコンテキストはすべてのシャードの結合として保存される。注目ヘッドは別個のスレッドブロックで処理されるため、各ヘッドのコンテキスト削減はエンドツーエンドのスピードアップとメモリ削減をもたらす。推測すると、S2-Attentionで訓練されたLLMは、KVキャッシュの削減をモデル品質の保証された無料の食事とすることができる。実験では,(1)S2-Attentioncanは,(1)FlashAttention-2より25.3倍の注目速度を実現し,エンドツーエンドのトレーニング時間と10倍の推論遅延を6倍に削減し,(2)既定のアテンションに比べてモデルのトレーニング品質が向上し,(3)32Kコンテキストウインドウ上での良質なニードル検索精度が向上した。アルゴリズムの上にDKernelというLLMトレーニングおよび推論カーネルライブラリを構築し、ユーザが自身のモデルに対してスパーシティパターンをカスタマイズできるようにする。私たちはDKernelandをオープンソースにしてMegatron、Pytorch、vLLMと互換性のあるものにしました。

関連論文リスト

Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文参考訳（メタデータ） (2025-07-13T12:33:37Z)
RAT: Bridging RNN Efficiency and Attention Accuracy in Language Modeling [17.437929000395112]
再発機構と注意機構の間にラットという中間設計を導入する。入力をチャンクに分割し、各チャンク内で単純なリニアリカレンスを適用してローカル依存関係をキャプチャし、その後、チャンク全体でソフトマックスアテンションを行い、長距離インタラクションをモデル化する。チャンクサイズが16の場合、ラット層は100Kトークンシーケンスで(7時間)訓練速度を向上し、4Kシーケンス長で(9時間)生成する。
論文参考訳（メタデータ） (2025-07-06T15:08:49Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention [32.48360534726024]
我々は、アルゴリズムのイノベーションとハードウェアの最適化を統合する、ネイティブにトレーニング可能なスパースアテンションメカニズムであるNSAを紹介する。 NSAは動的な階層的なスパース戦略を採用し、粗粒のトークン圧縮と細粒のトークン選択を組み合わせて、グローバルなコンテキスト認識と局所的精度の両方を維持する。
論文参考訳（メタデータ） (2025-02-16T11:53:44Z)
Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。 CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文参考訳（メタデータ） (2024-12-09T04:27:03Z)
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [11.334069751834264]
本研究では,従来の注意を学習可能なゲートで強化する新しい注意機構を開発し,注意マップ内の重要なブロックを適応的に選択し,残りのブロックがスパースであると推定する。 SeerAttentionは32k長の顕著な90%のパリシティ比を達成でき、FlashAttention-2の5.67倍のスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-17T07:07:09Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level [30.681204292813998]
近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。我々は,近隣の注意を,標準的な注意と同様のバッチGEMM問題として表すことができることを示した。我々は、異なる空間軸をまたいだ注意をきめ細かく制御できる、融合したドット積アテンションカーネルを適応した、融合した近隣アテンションを開発する。
論文参考訳（メタデータ） (2024-03-07T17:35:58Z)
HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文参考訳（メタデータ） (2023-10-09T17:05:25Z)
Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文参考訳（メタデータ） (2023-09-29T17:59:56Z)
Faster Causal Attention Over Large Sequences Through Sparse Flash Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文参考訳（メタデータ） (2023-06-01T21:33:59Z)
Faster Attention Is What You Need: A Fast Self-Attention Neural Network Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文参考訳（メタデータ） (2022-08-15T02:47:33Z)
AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。 AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文参考訳（メタデータ） (2021-03-10T08:38:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。