論文の概要: Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
- arxiv url: http://arxiv.org/abs/2605.06055v2
- Date: Fri, 08 May 2026 01:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.11801
- Title: Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
- Title(参考訳): プールHBM上でのバッファ独立通信によるアセンド上での効率的なMoE推論
- Authors: Tianlun Hu, Tiancheng Hu, Shengsheng Litang, Sheng Wang, Xiaoming Bao, Yuxing Li, Wei Wang, Zhongzhe Hu, Lijun Li, Hongwei Sun, Jingbin Zhou,
- Abstract要約: Mixture-of-Experts (MoE)推論はデバイス間で大規模なトークン交換を必要とする。
本稿では,Ascendシステム上でのMoE推論高速化のためのリレーバッファフリー通信設計を提案する。
- 参考スコア(独自算出の注目度): 14.495939227785074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) inference requires large-scale token exchange across devices, making dispatch and combine major bottlenecks in both prefill and decode. Beyond network transfer, routing-driven layout transformation, temporary relay, and output restoration can add substantial overhead. Existing MoE communication paths are often buffer-centric, using explicit inter-process relay and reordering buffers around collective transfer. This report presents a relay-buffer-free communication design for MoE inference acceleration on Ascend systems. The design reorganizes dispatch and combine around direct placement into destination expert windows and direct reading from remote expert windows. Built on globally pooled high-bandwidth memory and symmetric-memory allocation, it removes most intermediate relay and reordering buffers while retaining only lightweight control state, including counts, offsets, and synchronization metadata. We instantiate the design as two schedules for the main phases of MoE inference: a prefill schedule with richer planning state for throughput-oriented execution, and a compact decode schedule for latency-sensitive execution. Experiments on Ascend-based MoE workloads show reduced dispatch and combine latency in both settings. At the serving level, the implementation improves time to first token (TTFT), preserves competitive time per output token (TPOT), and enlarges the feasible scheduling space under practical latency constraints. These results indicate that, on platforms with globally addressable device memory, reducing intermediate buffering and output restoration around expert execution is an effective direction for accelerating MoE inference.
- Abstract(参考訳): Mixture-of-Experts (MoE)推論はデバイス間で大規模なトークン交換を必要とし、ディスパッチとプリフィルとデコードの両方で大きなボトルネックを結合する。
ネットワーク転送以外にも、ルーティング駆動のレイアウト変換、一時的なリレー、出力復元は大きなオーバーヘッドをもたらす可能性がある。
既存のMoE通信パスは、しばしばバッファ中心であり、明示的なプロセス間中継と集合転送のバッファの並べ替えを使用する。
本稿では,Ascendシステム上でのMoE推論高速化のためのリレーバッファフリー通信設計を提案する。
設計はディスパッチを再編成し、宛先の専門家ウィンドウに直接配置し、リモート専門家ウィンドウから直接読み込む。
グローバルプールされた高帯域メモリと対称メモリアロケーションに基づいて構築され、ほとんどの中間リレーとリオーダーバッファを削除し、カウント、オフセット、同期メタデータを含む軽量な制御状態のみを保持する。
我々は、MoE推論の主要なフェーズの2つのスケジュールとして、スループット指向実行のためのよりリッチな計画状態を持つプリフィルスケジュールと、遅延に敏感な実行のためのコンパクトなデコードスケジュールをインスタンス化する。
AscendベースのMoEワークロードの実験では、ディスパッチの削減と、両方の設定でのレイテンシの組み合わせが示されている。
サービスレベルでは、実装は最初のトークン(TTFT)までの時間を改善し、出力トークン毎の競合時間(TPOT)を保ち、実用的なレイテンシ制約の下で実行可能なスケジューリングスペースを拡大する。
これらの結果から,グローバルに対応可能なデバイスメモリを持つプラットフォームでは,中間バッファリングとエキスパート実行に伴う出力回復がMoE推論の高速化に有効な方向であることが示唆された。
関連論文リスト
- Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT) [2.8350851063316873]
ストリーミングコンテキスト – 推論による重なり合う検索 – は、このレイテンシを軽減することができる。
本稿では,ストリーミング対応LLMサービスシステムStream2LLMについて述べる。
論文 参考訳(メタデータ) (2026-03-29T06:49:12Z) - TS-Memory: Plug-and-Play Memory for Time Series Foundation Models [63.21390142212087]
Time Series Foundation Models (TSFM) は大規模な事前訓練を通じて強力なゼロショット予測を実現する。
パラメトリック適応は破滅的な忘れを招き、非パラメトリック検索は予測を改善するが、データストア検索によってレイテンシが高くなる。
本稿では, TSFM を拡張した軽量メモリアダプタ TS-Memory としてParametric Memory Distillation を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-12T04:16:19Z) - ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。
ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文 参考訳(メタデータ) (2026-01-29T02:51:59Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Staggered Batch Scheduling: Co-optimizing Time-to-First-Token and Throughput for High-Efficiency LLM Inference [17.27010833526918]
Staggered Batch Scheduling (SBS)はリクエストをバッファして最適な実行バッチを生成する。
Load-Aware Global Allocation戦略は、PrefillとDecodeの両フェーズでDPユニット間で計算負荷のバランスをとる。
我々のシステムはTTFTを30%-40%削減し、最先端の即時スケジューリングベースラインに比べてスループットを15%-20%向上させる。
論文 参考訳(メタデータ) (2025-12-18T03:45:05Z) - Hardware Software Optimizations for Fast Model Recovery on Reconfigurable Architectures [4.058950730052848]
本稿では,FPGAを高速化したMRフレームワークであるMERINDAについて述べる。
一般的なMRワークロードでは、MERINDAはFPGAベースのLCCベースラインよりも6.3倍少ないサイクルを提供する。
論文 参考訳(メタデータ) (2025-12-05T19:38:34Z) - DuetServe: Harmonizing Prefill and Decode for LLM Serving via Adaptive GPU Multiplexing [15.376910065679994]
DuetServeは、単一のGPU内で分散レベルの分離を実現する統一LLMサービスフレームワークである。
DuetServeは、最先端フレームワークと比較して、低ジェネレーションレイテンシを維持しながら、スループットを最大1.3倍改善する。
論文 参考訳(メタデータ) (2025-11-06T20:18:34Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。