Fugu-MT 論文翻訳(概要): Klotski: Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline

論文の概要: Klotski: Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline

arxiv url: http://arxiv.org/abs/2502.06888v1
Date: Sun, 09 Feb 2025 08:47:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.786281
Title: Klotski: Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline
Title（参考訳）: Klotski: エキスパートを意識したマルチバッチパイプラインによる効率よいミスマッチ推論
Authors: Zhiyuan Fang, Yuegui Huang, Zicong Hong, Yufeng Lyu, Wuhui Chen, Yue Yu, Fan Yu, Zibin Zheng,
Abstract要約: 混合専門家(MoE)は、計算コストを大幅に増加させることなく、数兆のパラメータまで言語モデルのスケーリングを可能にする。オフロード技術は、メモリをCPUとディスクから利用し、I/Oと計算を並列化する。 Klotskiは、新しいエキスパート対応マルチバッチパイプラインパラダイムを通じて、パイプラインバブルを著しく低減する効率的なMoE推論エンジンである。
参考スコア（独自算出の注目度）: 39.52960562420227
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Mixture of Experts (MoE), with its distinctive sparse structure, enables the scaling of language models up to trillions of parameters without significantly increasing computational costs. However, the substantial parameter size presents a challenge for inference, as the expansion in GPU memory cannot keep pace with the growth in parameters. Although offloading techniques utilise memory from the CPU and disk and parallelise the I/O and computation for efficiency, the computation for each expert in MoE models is often less than the I/O, resulting in numerous bubbles in the pipeline. Therefore, we propose Klotski, an efficient MoE inference engine that significantly reduces pipeline bubbles through a novel expert-aware multi-batch pipeline paradigm. The proposed paradigm uses batch processing to extend the computation time of the current layer to overlap with the loading time of the next layer. Although this idea has been effectively applied to dense models, more batches may activate more experts in the MoE, leading to longer loading times and more bubbles. Thus, unlike traditional approaches, we balance computation and I/O time and minimise bubbles by orchestrating their inference orders based on their heterogeneous computation and I/O requirements and activation patterns under different batch numbers. Moreover, to adapt to different hardware environments and models, we design a constraint-sensitive I/O-compute planner and a correlation-aware expert prefetcher for a schedule that minimises pipeline bubbles. Experimental results demonstrate that Klotski achieves a superior throughput-latency trade-off compared to state-of-the-art techniques, with throughput improvements of up to 85.12x.
Abstract（参考訳）: 専門家の混合(MoE)は、その特異なスパース構造により、計算コストを大幅に増加させることなく、言語モデルの最大1兆のパラメータのスケーリングを可能にする。しかし、GPUメモリの拡張はパラメータの増加に追従できないため、かなりのパラメータサイズが推論の課題となる。オフロード技術はメモリをCPUやディスクから利用し、I/Oと計算を並列化して効率を上げるが、MoEモデルの専門家毎の計算はI/Oよりも少ないことが多く、パイプライン内に多数のバブルが発生する。そこで本稿では,新たなエキスパート対応マルチバッチパイプラインパラダイムを通じて,パイプラインバブルを大幅に低減する効率的なMoE推論エンジンであるKlotskiを提案する。提案するパラダイムでは,バッチ処理を用いて,現在のレイヤの計算時間を,次のレイヤのロード時間と重なり合うように拡張する。このアイデアは高密度モデルに効果的に適用されているが、より多くのバッチがMoEの専門家を活性化させ、より長いロード時間とより多くのバブルをもたらす可能性がある。したがって、従来の手法とは異なり、計算とI/O時間のバランスをとり、不均一な計算とI/O要求とアクティベーションパターンに基づいて予測順序を調整し、バブルを最小化する。さらに、異なるハードウェア環境やモデルに適応するために、パイプラインバブルを最小化するスケジュールのために、制約に敏感なI/O計算プランナと相関認識の専門家プレファーを設計する。実験の結果、Klotskiは最先端技術に比べてスループットとレイテンシのトレードオフが優れており、スループットは最大85.12倍向上した。

関連論文リスト

D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文参考訳（メタデータ） (2025-03-20T21:03:10Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
MultiPDENet: PDE-embedded Learning with Multi-time-stepping for Accelerated Flow Simulation [48.41289705783405]
マルチスケールタイムステップ(MultiPDENet)を用いたPDE組み込みネットワークを提案する。特に,有限差分構造に基づく畳み込みフィルタを少数のパラメータで設計し,最適化する。 4階ランゲ・クッタ積分器を微細な時間スケールで備えた物理ブロックが確立され、PDEの構造を埋め込んで予測を導出する。
論文参考訳（メタデータ） (2025-01-27T12:15:51Z)
ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2～10倍に向上することを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:54Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文参考訳（メタデータ） (2023-10-31T00:12:14Z)
Decreasing the Computing Time of Bayesian Optimization using Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。 BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文参考訳（メタデータ） (2023-09-08T14:05:56Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
DACT-BERT: Differentiable Adaptive Computation Time for an Efficient BERT Inference [3.375478015832455]
DACT-BERT(DACT-BERT) は, BERT のようなモデルに対して, 微分可能な適応計算時間戦略である。 DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。
論文参考訳（メタデータ） (2021-09-24T04:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。