論文の概要: Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling
- arxiv url: http://arxiv.org/abs/2603.27624v1
- Date: Sun, 29 Mar 2026 10:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.044069
- Title: Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling
- Title(参考訳): エキスパートストリーミング:マルチチップアーキテクチャと動的エキスパート軌道スケジューリングによる低バッチMoE推論の高速化
- Authors: Songchen Ma, Hongyi Li, Weihao Zhang, Yonghao Tan, Pingcheng Dong, Yu Liu, Lan Liu, Yuzhong Jiao, Xuejiao Liu, Luhong Liang, Kwang-Ting Cheng,
- Abstract要約: Mixture-of-Expertsは、ローバッチ推論を備えたエッジAIの有望なアプローチである。
MoEのスパーシリティと動的ゲーティングシフト 分散戦略は、より微細なランタイムの粒度に向かっている。
Fully Sharded Expert Data Parallelismは、低バッチのMoE計算用に特別に設計された並列化パラダイムである。
- 参考スコア(独自算出の注目度): 29.998645673111536
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixture-of-Experts is a promising approach for edge AI with low-batch inference. Yet, on-device deployments often face limited on-chip memory and severe workload imbalance; the prevalent use of offloading further incurs off-chip memory access bottlenecks. Moreover, MoE sparsity and dynamic gating shift distributed strategies toward much finer granularity and introduce runtime scheduling considerations. Recently, high die-to-die bandwidth chiplet interconnects have created new opportunities for multi-chiplet systems to address workload imbalance and offloading bottlenecks with fine-grained scheduling. In this paper, we propose Fully Sharded Expert Data Parallelism, a parallelization paradigm specifically architected for low-batch MoE inference on multi-chiplet accelerators. FSE-DP attains adaptive computation-communication overlap and balanced load by orchestrating fine-grained, complementary expert streams along dynamic trajectories across high-bandwidth D2D links. The attendant dataflow complexity is tamed by a minimal, hardware-amenable set of virtualization rules and a lightweight scheduling algorithm. Our approach achieves 1.22 to 2.00 times speedup over state-of-the-art baselines and saves up to 78.8 percent on-chip memory.
- Abstract(参考訳): Mixture-of-Expertsは、ローバッチ推論を備えたエッジAIの有望なアプローチである。
しかし、デバイス上のデプロイメントでは、オンチップメモリが制限され、ワークロードの不均衡が深刻になることが多い。
さらに、MoEのスパーシリティと動的ゲーティングシフトは、分散戦略をより微細な粒度に向け、実行時スケジューリングの考慮を導入する。
近年,ハイダイ・ツー・ダイ・ダイ・ダイ・ダイ・ダイ・バンド幅のチップレット相互接続は,作業負荷の不均衡やボトルネックのオフロードに細かなスケジューリングで対処するマルチチップシステムの新たな機会を生み出している。
本稿では,マルチチップアクセラレータ上での低バッチMOE推論のための並列化パラダイムであるFully Sharded Expert Data Parallelismを提案する。
FSE-DPは、高帯域D2Dリンクをまたいだ動的軌跡に沿って微細で相補的な専門家ストリームを編成することにより、適応的な計算通信オーバーラップとバランスの取れた負荷を実現する。
付随するデータフローの複雑さは、最小限のハードウェア対応の仮想化ルールと軽量なスケジューリングアルゴリズムによって処理される。
我々のアプローチでは、最先端のベースラインよりも1.22~2.00倍のスピードアップを実現し、最大78.8%のオンチップメモリを節約できる。
関連論文リスト
- TawPipe: Topology-Aware Weight Pipeline Parallelism for Accelerating Long-Context Large Models Training [9.859893936091813]
大規模言語モデル(LLM)のトレーニングは、デバイスメモリの制限とデバイス間通信のコストによって、基本的に制限されている。
分散クラスタにおける階層的帯域幅を利用して通信効率を向上させるTawPipeを提案する。
論文 参考訳(メタデータ) (2025-11-12T21:06:37Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Taming the Tail: NoI Topology Synthesis for Mixed DL Workloads on Chiplet-Based Accelerators [8.493759841403682]
CPU/GPUと新興技術(HBM/DRAM)の異種チップレットベースシステムによるスケール向上
しかし、このパッケージ上のデアグリゲーションはNetwork-on-Interposer(NoI)に遅延をもたらす
論文 参考訳(メタデータ) (2025-10-28T06:36:44Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - InTAR: Inter-Task Auto-Reconfigurable Accelerator Design for High Data Volume Variation in DNNs [5.762543012823378]
InTARはFPGA上のHDVアプリケーションのための新しいアクセラレータ設計手法である。
回路設計の前に決定された静的スケジュールで実行パターンを自動的に切り替える。
InTARは、少ないリソースと低い再構成時間で高いクロック周波数を達成する。
論文 参考訳(メタデータ) (2025-02-12T21:43:51Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。