論文の概要: CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations
- arxiv url: http://arxiv.org/abs/2603.28768v1
- Date: Mon, 12 Jan 2026 19:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.122672
- Title: CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations
- Title(参考訳): CRAFT: 細粒度層推定によるコスト対応エキスパートレプリカアロケーション
- Authors: Adrian Zhao, Zhenkun Cai, Zhenyu Song, Lingfan Yu, Haozheng Fan, Jun Wu, Yida Wang, Nandita Vijaykumar,
- Abstract要約: CRAFTは、所定のメモリ予算下での負荷バランスを最大化する、効率的な専門家レプリケーションフレームワークである。
我々の評価では、大規模デプロイメントにおける既存のレプリケーション技術よりも、CRAFTはエンドツーエンドのサービススループットを平均$1.14タイム(最大$12タイム)に向上している。
- 参考スコア(独自算出の注目度): 7.375859802203654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) has recently emerged as the mainstream architecture for efficiently scaling large language models while maintaining near-constant computational cost. Expert parallelism distributes parameters by partitioning experts across devices, but this introduces token-level load imbalance during inference. Expert replication is a widely adopted load-balancing technique in serving frameworks that alleviates load imbalance in large-scale deployments by replicating experts with high loads. In this work, we demonstrate that existing replication schemes often over-replicate, with many replicas providing marginal improvement. Replicas consume substantial GPU memory, which may lead to resource contention and throughput degradation. We present CRAFT, an efficient expert replication framework that maximizes load balance under a given memory budget by performing fine-grained, per-layer replication based on the estimated replication benefit. CRAFT can be seamlessly integrated into existing serving frameworks without any additional training or model changes. Our evaluation shows that CRAFT increases end-to-end serving throughput by $1.14\times$ on average (up to $1.2\times$) over existing replication techniques in large-scale deployments with models ranging from hundreds of billions to a trillion parameters.
- Abstract(参考訳): 最近、Mixture-of-Experts (MoE) が、ほぼ一定に近い計算コストを維持しながら、大規模言語モデルを効率的にスケールするための主要なアーキテクチャとして登場した。
エキスパート並列性は、専門家をデバイスに分割することでパラメータを分散するが、これは推論中にトークンレベルの負荷不均衡をもたらす。
エキスパートレプリケーションは、負荷の高い専門家をレプリカすることで、大規模デプロイメントにおける負荷不均衡を軽減するフレームワークを提供する上で、広く採用されているロードバランシング技術である。
本研究では,既存の複製スキームが過剰に複製されることを実証し,多くの複製が限界的な改善をもたらすことを示した。
Replicasは大量のGPUメモリを消費し、リソースの競合とスループットの低下につながる可能性がある。
提案するCRAFTは,所定のメモリ予算下での負荷バランスを最大化し,推定したレプリケーションの利点に基づいて,層ごとの詳細なレプリケーションを行う。
CRAFTは、追加のトレーニングやモデル変更なしに、既存のサービスフレームワークにシームレスに統合することができる。
我々の評価では、CRAFTは、数十億から1兆のパラメータのモデルによる大規模デプロイメントにおいて、既存のレプリケーション技術よりも平均で1.14\times$(最大12\times$)のエンドツーエンドサービススループットを向上している。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - FlexRank: Nested Low-Rank Knowledge Decomposition for Adaptive Model Deployment [20.331469310989956]
重要順序付きネスト成分は事前訓練されたモデルから抽出でき、利用可能な計算予算に基づいて選択的に活性化される。
このアプローチは、各予算のスクラッチからトレーニングすることなく、コストとパフォーマンスの間の優雅なトレードオフを提供する"トレインオンス、デプロイ、どこでも"のパラダイムを可能にします。
論文 参考訳(メタデータ) (2026-02-02T19:01:40Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Re-boosting Self-Collaboration Parallel Prompt GAN for Unsupervised Image Restoration [63.37145159948982]
GAN(Generative Adversarial Network)に基づく教師なし復元アプローチは、ペアデータセットを必要としない、有望なソリューションを提供する。
しかし、これらの GAN ベースのアプローチは、従来の教師なし GAN ベースのフレームワークの性能を超えるのに苦労している。
本稿では,既存の修復モデルに対する自己協力戦略を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。