論文の概要: EPD-Serve: A Flexible Multimodal EPD Disaggregation Inference Serving System On Ascend
- arxiv url: http://arxiv.org/abs/2601.11590v1
- Date: Mon, 05 Jan 2026 03:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.777785
- Title: EPD-Serve: A Flexible Multimodal EPD Disaggregation Inference Serving System On Ascend
- Title(参考訳): EPD-Serve: Ascend 上でのフレキシブルなマルチモーダル EPD 分散推論システム
- Authors: Fan Bai, Pai Peng, Zhengzhi Tang, Zhe Wang, Gong Chen, Xiang Lu, Yinuo Li, Huan Lin, Weizhe Lin, Yaoyuan Wang, Xiaosong Li,
- Abstract要約: マルチモーダルモデルのためのステージレベルの分散推論サービスシステムであるEPD-Serveを提案する。
EPD-Serveは推論パイプラインを独立したEncode、Prefill、Decodeステージに分離する。
高速なシナリオでは、PD-disaggregatedデプロイメントと比較して、PD-Serveはエンドツーエンドのスループットを57.37-69.48%改善する。
- 参考スコア(独自算出の注目度): 19.427351311875718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread adoption of large multimodal models, efficient inference across text, image, audio, and video modalities has become critical. However, existing multimodal inference systems typically employ monolithic architectures that tightly couple the Encode, Prefill, and Decode stages on homogeneous hardware, neglecting the heterogeneous computational characteristics of each stage. This design leads to inefficient resource utilization and limited system throughput. To address these issues, we propose EPD-Serve, a stage-level disaggregated inference serving system for multimodal models. EPD-Serve decouples the inference pipeline into independent Encode, Prefill, and Decode stages, enabling logical isolation and flexible co-located deployment through dynamic orchestration. Leveraging the Ascend interconnect topology, EPD-Serve introduces asynchronous feature prefetching between Encode and Prefill stages and a hierarchical grouped KV cache transmission mechanism between Prefill and Decode stages to improve cross-node communication efficiency. In addition, EPD-Serve incorporates multi-route scheduling, instance-level load balancing, and multi-stage hardware co-location with spatial multiplexing to better support diverse multimodal workloads. Comprehensive experiments on multimodal understanding models demonstrate that, under high-concurrency scenarios, EPD-Serve improves end-to-end throughput by 57.37-69.48% compared to PD-disaggregated deployment, while satisfying strict SLO constraints, including TTFT below 2000 ms and TPOT below 50 ms. These results highlight the effectiveness of stage-level disaggregation for optimizing multimodal large model inference systems.
- Abstract(参考訳): 大規模なマルチモーダルモデルの普及により、テキスト、画像、オーディオ、ビデオモダリティ間の効率的な推論が重要になっている。
しかし、既存のマルチモーダル推論システムは典型的にモノリシックなアーキテクチャを用いており、エンコード、プリフィル、デコードの各ステージの均一なハードウェア上のステージを密結合し、各ステージの不均一な計算特性を無視している。
この設計により、非効率な資源利用とシステムのスループットが制限される。
これらの問題に対処するために,マルチモーダルモデルのためのステージレベルの非集約型推論サービスシステムであるEPD-Serveを提案する。
EPD-Serveは推論パイプラインを独立したEncode、Prefill、Decodeステージに分離し、論理的分離と動的オーケストレーションによる柔軟な共同配置を可能にする。
Ascend相互接続トポロジを活用して、EPD-ServeはEncodeとPrefillステージ間の非同期フィーチャプリフェッチと、PrefillとDecodeステージ間の階層的なグループ化KVキャッシュ伝送機構を導入し、ノード間通信効率を向上させる。
さらに、EPD-Serveには、マルチルートスケジューリング、インスタンスレベルのロードバランシング、空間的多重化によるマルチステージハードウェアのコロケーションが組み込まれ、多様なマルチモーダルワークロードのサポートが改善されている。
マルチモーダル理解モデルに関する総合的な実験では、PD-ServeはPD-disaggregatedデプロイメントと比較して、エンドツーエンドのスループットを57.37-69.48%向上し、TTFTを2000ms以下、TPOTを50ms以下とする厳密なSLO制約を満たすことを示した。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism [9.93378263858092]
マルチモーダル大言語モデル(MLLM)は、特徴抽出器とプロジェクションモジュールを組み込むことで、画像、ビデオ、オーディオを扱う。
現在の密結合のサービスアーキテクチャは、混合要求タイプを区別するのに苦労しています。
本稿では,リソースの不均一性に弾力的に適応する新しいサービスパラダイムであるElastic Multimodal Parallelism(EMP)を紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:53:48Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks [19.42660454288912]
本稿では,効率的なマルチモーダル情報融合と利用のためのタスク指向マルチモーダルトークン伝送方式を提案する。
トークン伝送の効率を向上させるため,クロスモーダルアライメントやタスク指向微調整を含む2段階トレーニングアルゴリズムを設計した。
我々は、交互最適化手法を用いて、ユーザ間での帯域幅、電力割り当て、トークン長を共同で最適化する。
論文 参考訳(メタデータ) (2025-05-06T14:17:05Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Proximal Policy Optimization-based Transmit Beamforming and Phase-shift
Design in an IRS-aided ISAC System for the THz Band [90.45915557253385]
テラヘルツ(THz)帯で動作するIRS支援統合センシング・通信(ISAC)システムを提案し,システム容量を最大化する。
透過ビームフォーミングと位相シフト設計はエルゴード制約を伴う普遍最適化問題に変換される。
論文 参考訳(メタデータ) (2022-03-21T09:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。