論文の概要: TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload
- arxiv url: http://arxiv.org/abs/2605.20179v1
- Date: Tue, 19 May 2026 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.578879
- Title: TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload
- Title(参考訳): TIDE: I/O-Aware Expert Offload を用いた効率よく, 損失のない MoE 拡散 LLM 推論
- Authors: Zhiben Chen, Youpeng Zhao, Yang Sui, Jun Wang, Yuzhang Shang,
- Abstract要約: Diffusion Large Language Models (dLLMs) は、並列ブロックレベルのデコーディングを通じて、ハードウェア利用と双方向コンテキストを改善する。
既存のARベースのメソッドは、しばしば禁止的なI/Oオーバーヘッドまたは重要な計算ボトルネックを引き起こす。
本稿では,専門家のアクティベーションの時間的安定性を活用する新しい資源効率推論システムであるTIDEを提案する。
- 参考スコア(独自算出の注目度): 28.278474158271894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (dLLMs) have emerged as a competitive alternative to autoregressive (AR) models, offering better hardware utilization and bidirectional context through parallel block-level decoding. However, as dLLMs continue to scale up with mixture-of-experts (MoE) architectures, their deployment on resource-constrained devices remains an open challenge. Existing AR-based methods often incur either prohibitive I/O overhead or significant compute bottlenecks. In this work, we propose TIDE, a novel resource-efficient inference system that leverages the temporal stability of expert activations during the diffusion process within the block. Specifically, we leverage the temporal stability of expert activations during the diffusion process within the block and introduce an interval-based expert refresh strategy that updates the expert placement in an I/O-aware fashion. To ensure optimal performance, we formulate the inference scheduling as a mathematical programming problem, solving for the optimal interval that minimizes I/O traffic and CPU computation. Most importantly, TIDE is a lossless optimization that requires no model training, providing a "free lunch" acceleration for dLLM inference. In a single GPU-CPU system, we demonstrate that TIDE achieves up to 1.4$\times$ and 1.5$\times$ throughput improvements over prior baselines on LLaDA2.0-mini and LLaDA2.0-flash models, respectively.
- Abstract(参考訳): Diffusion Large Language Models (dLLMs) は自動回帰(AR)モデルの競合として登場し、並列ブロックレベルのデコーディングによるハードウェア利用と双方向コンテキストの向上を実現している。
しかしながら、dLLMはMix-of-experts (MoE)アーキテクチャでスケールアップを続けているため、リソース制約のあるデバイスへのデプロイメントは依然としてオープンな課題である。
既存のARベースのメソッドは、しばしば禁止的なI/Oオーバーヘッドまたは重要な計算ボトルネックを引き起こす。
本研究では,ブロック内の拡散過程におけるエキスパートアクティベーションの時間的安定性を生かした,資源効率の高い新しい推論システムTIDEを提案する。
具体的には、ブロック内の拡散過程におけるエキスパートアクティベーションの時間的安定性を活用し、I/O方式で専門家配置を更新する間隔ベースのエキスパートリフレッシュ戦略を導入する。
最適性能を確保するため,推論スケジューリングを数学的プログラミング問題として定式化し,I/OトラフィックとCPU計算を最小化する最適区間を解く。
最も重要な点として、TIDEはモデルトレーニングを必要とせず、dLLM推論のための"フリーランチ"アクセラレーションを提供する、ロスレスな最適化である。
1つのGPU-CPUシステムにおいて、TIDE は LLaDA2.0-mini と LLaDA2.0-flash モデルでそれぞれ以前のベースラインよりも 1.4$\times$ と 1.5$\times$ のスループット向上を実現していることを示す。
関連論文リスト
- Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference [36.81958522560282]
レイヤレベルでの注意を動的に最適化するコンテキスト対応フレームワークであるFlux Attentionを紹介します。
パラメータ効率のよいアプローチとして、我々のフレームワークは8$times$A800 GPU上でのトレーニングにわずか12時間しかかからない。
本フレームワークは,プリフィルおよびデコード段階において,最大2.8times$および2.0times$の速度改善を施したベースラインモデルと比較して,性能と推論速度のトレードオフを良好に実現している。
論文 参考訳(メタデータ) (2026-04-08T07:36:17Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Online Scheduling for LLM Inference with KV Cache Constraints [22.133592174540052]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。
KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える、新しい理論的なスケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-10T23:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。