論文の概要: How Far Can Disaggregation Go? A Design-Space Exploration of Attention-FFN Disaggregation for Efficient MoE LLM Serving
- arxiv url: http://arxiv.org/abs/2605.28302v1
- Date: Wed, 27 May 2026 10:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.988736
- Title: How Far Can Disaggregation Go? A Design-Space Exploration of Attention-FFN Disaggregation for Efficient MoE LLM Serving
- Title(参考訳): 分散はどこまで進むか? 効率的なMOE LLMの実現のための注意-FFN分散の空間探索
- Authors: Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna,
- Abstract要約: 本研究では,デバイス上でのカーネル計測と高忠実度ネットワークシミュレーションを融合したフレームワークを用いて,AFD(Attention-FFN Disaggregation)のメリットと限界について検討する。
厳格なTTFT/TPOT SLOの下では、AFDはチャット、コーディング、エージェントコーディングのワークロード間でDeepSeek-V3.2で約4kトークン/秒のシステムスループットを維持できる。
- 参考スコア(独自算出の注目度): 14.552785121277529
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern large language model (LLM) inference has progressively disaggregated to keep pace with growing model sizes and tight TTFT and TPOT service-level objectives: from chunked-prefill aggregation, to prefill-decode (P/D) disaggregation, and most recently to operator-level Attention-FFN Disaggregation (AFD). This trend is especially important for mixture-of-experts (MoE) models, where memory-bound attention, compute-intensive expert FFNs, and MoE dispatch/combine communication create distinct resource demands. AFD further exposes this heterogeneity by placing attention and MoE-FFN execution on separate GPU groups. Each level of disaggregation deepens the scheduling design space across workload characteristics, resource allocation, and interconnect topology, raising the central question: when does each level actually pay off? We systematically characterize this trade-off for MoE inference across realistic workloads spanning input/output sequence lengths, prefix-KV reuse, and per-user latency constraints. Using chunked-prefill and P/D disaggregation as baselines, we study the benefits and limits of AFD at scale through a framework that fuses on-device kernel measurements with high-fidelity network simulation. Under strict TTFT/TPOT SLOs, AFD sustains around 4k tokens/s of system throughput on DeepSeek-V3.2 across chat, coding, and agentic-coding workloads, where non-AFD deployments are infeasible. We distill concrete takeaways for jointly optimizing throughput and interactivity, including how to partition attention and FFN across GPUs as a function of workload and model architecture, providing design principles for current rack- and cluster-scale deployments as well as future disaggregated AI infrastructure.
- Abstract(参考訳): 最新の大規模言語モデル(LLM)推論は、成長するモデルサイズと密なTTFTおよびTPOTサービスレベルの目標、チャンクプリフィルアグリゲーションからプリフィルデコード(P/D)デグリゲーション、そして最近ではオペレータレベルのAttention-FFNディスアグリゲーション(AFD)まで、段階的に分散している。
この傾向は、メモリバウンドな注目、計算集約的な専門家FFN、およびMoEディスパッチ/コンビイン通信がリソース要求を別々に生成する、混合専門家(MoE)モデルにとって特に重要である。
AFDはさらに、別のGPUグループ上での注意とMoE-FFNの実行によって、この異種性を公開する。
各レベルの分散は、ワークロード特性、リソース割り当て、相互接続トポロジをまたいだスケジュール設計スペースを深くし、中心的な疑問を提起する。
我々は、入力/出力シーケンスの長さ、プレフィックス-KV再利用、ユーザ毎のレイテンシ制約にまたがる現実的なワークロードに対して、このMoE推論のトレードオフを体系的に特徴付ける。
チャンクプレフィルとP/Dデアグリゲーションをベースラインとして,デバイス上でのカーネル計測と高忠実度ネットワークシミュレーションを融合したフレームワークを用いて,大規模AFDのメリットと限界について検討する。
厳格なTTFT/TPOT SLOの下でAFDは、非AFDデプロイメントが不可能なチャット、コーディング、エージェントコーディングワークロード間で、DeepSeek-V3.2で約4kトークン/秒のシステムスループットを維持できる。
我々は、ワークロードとモデルアーキテクチャの関数としてGPU間で注目とFFNを分割する方法や、現在のラックスケールとクラスタスケールのデプロイメントのための設計原則、そして将来の非集約型AIインフラストラクチャなど、スループットと対話性を共同で最適化するための具体的なテイクアウトを蒸留する。
関連論文リスト
- Heterogeneous Tasks Offloading in Vehicular Edge Computing: A Federated Meta Deep Reinforcement Learning Approach [2.7564583149786075]
Vehicular Edge Computing (VEC) は、計算集約タスクを近くのエッジサーバにオフロードすることで、レイテンシに敏感なvehicularアプリケーションを可能にする。
本稿では,VECシステムにおける異種タスクオフロードのためのGAT-Seq2Seqモデリング(FedMAGS)を用いたFederated Meta Deep Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-18T14:08:51Z) - Heterogeneous Computing: The Key to Powering the Future of AI Agent Inference [12.811151742829137]
OI(Operational Intensity)とCF(Capacity Footprint)の2つの指標を紹介します。
OI/CFは、長期のコンテキストKVキャッシュによって、メモリバインドの高いデコードを実現するため、劇的にシフトする可能性がある。
さらに,OI/CFの進化に適応するための基礎として,エージェント-ハードウェア共設計,ひとつのシステム内の複数の推論アクセラレータ,高帯域幅,大容量メモリ分散を仮定する。
論文 参考訳(メタデータ) (2026-01-29T17:11:46Z) - Theoretically Optimal Attention/FFN Ratios in Disaggregated LLM Serving [12.150964112168582]
我々は、AFDバンドルを$r$A-$1$Fトポロジーでサイズ化するための抽出可能な分析フレームワークを開発する。
インスタンス毎の平均スループットを最大化する最適A/F比の閉形式ルールを導出する。
トレース校正されたAFDシミュレータが理論を検証する。
論文 参考訳(メタデータ) (2026-01-29T07:22:27Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - FLAMES: A Hybrid Spiking-State Space Model for Adaptive Memory Retention in Event-Based Learning [16.60622265961373]
FLAMESは構造化状態空間力学とイベント駆動型計算を統合するハイブリッドフレームワークである。
ニューロモルフィックコンピューティングと構造化シーケンスモデリングをブリッジすることで、FLAMESはイベント駆動システムにおいてスケーラブルな長距離推論を可能にする。
論文 参考訳(メタデータ) (2025-04-02T00:08:19Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。