論文の概要: Accurate Expert Predictions in MoE Inference via Cross-Layer Gate
- arxiv url: http://arxiv.org/abs/2502.12224v1
- Date: Mon, 17 Feb 2025 14:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:06.486522
- Title: Accurate Expert Predictions in MoE Inference via Cross-Layer Gate
- Title(参考訳): クロス層ゲートによるMoE推論の正確なエキスパート予測
- Authors: Zhiyuan Fang, Zicong Hong, Yuegui Huang, Yufeng Lyu, Wuhui Chen, Yue Yu, Fan Yu, Zibin Zheng,
- Abstract要約: MoEモデルはエッジシナリオに適しているが、専門家の予測では困難に直面している。
Fateは、リソース制約のある環境で効率的な推論を可能にするために、MoEモデル用に設計されたオフロードシステムである。
Fateはプリフィル速度で4.5倍と1.9倍のスピードアップ、復号速度で4.1倍と2.2倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 39.52960562420227
- License:
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance across various tasks, and their application in edge scenarios has attracted significant attention. However, sparse-activated Mixture-of-Experts (MoE) models, which are well suited for edge scenarios, have received relatively little attention due to their high memory demands. Offload-based methods have been proposed to address this challenge, but they face difficulties with expert prediction. Inaccurate expert predictions can result in prolonged inference delays. To promote the application of MoE models in edge scenarios, we propose Fate, an offloading system designed for MoE models to enable efficient inference in resource-constrained environments. The key insight behind Fate is that gate inputs from adjacent layers can be effectively used for expert prefetching, achieving high prediction accuracy without additional GPU overhead. Furthermore, Fate employs a shallow-favoring expert caching strategy that increases the expert hit rate to 99\%. Additionally, Fate integrates tailored quantization strategies for cache optimization and IO efficiency. Experimental results show that, compared to Load on Demand and Expert Activation Path-based method, Fate achieves up to 4.5x and 1.9x speedups in prefill speed and up to 4.1x and 2.2x speedups in decoding speed, respectively, while maintaining inference quality. Moreover, Fate's performance improvements are scalable across different memory budgets.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにまたがって印象的なパフォーマンスを示しており、エッジシナリオでのそれらの応用は大きな注目を集めている。
しかし、エッジシナリオに適したスパースアクティベートされたMixture-of-Experts(MoE)モデルは、高いメモリ要求のために比較的注目を集めていない。
この課題に対処するために、負荷ベースの手法が提案されているが、専門家の予測では困難に直面している。
不正確な専門家予測は、長い推論遅延をもたらす可能性がある。
エッジシナリオにおけるMoEモデルの適用を促進するため,資源制約環境における効率的な推論を実現するために,MoEモデル用に設計されたオフロードシステムであるFateを提案する。
Fateの背景にある重要な洞察は、隣接するレイヤからのゲート入力を専門家のプリフェッチに効果的に使用することができ、GPUオーバーヘッドを余分に増やさずに高い予測精度を達成できるということだ。
さらに、Fateでは、エキスパートのヒット率を99\%に向上する、浅い評価のエキスパートキャッシュ戦略を採用している。
さらに、Fateはキャッシュ最適化とIO効率のための調整された量子化戦略を統合している。
実験結果から、Fateは需要負荷とエキスパートアクティベーションパスに基づく手法と比較して、プリフィル速度で4.5倍と1.9倍のスピードアップ、デコード速度で4.1倍と2.2倍のスピードアップを実現し、推論品質を維持した。
さらに、Fateのパフォーマンス改善は、さまざまなメモリ予算にわたってスケーラブルである。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration [31.982294870690925]
本稿では,HarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを提案する。
SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。
また、画像品質とキャッシュ利用のバランスをとるために、イメージエラープロキシガイドオブジェクト(IEPO)も組み込まれている。
論文 参考訳(メタデータ) (2024-10-02T16:34:29Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - A Machine Learning Approach to Improving Timing Consistency between
Global Route and Detailed Route [3.202646674984817]
不正確なタイミング予測は設計の労力を浪費し、回路性能を損なう。
この研究は、時間と「完全」ネットリストを最適化する最も初期の機会であるクロックツリー合成と配置の合法化の後のタイミング予測に焦点を当てている。
GR-based parasiticと時間推定のギャップを埋めるために,ポストGR最適化におけるポストDR結果のギャップを埋めるため,機械学習(ML)ベースのモデルを提案する。
論文 参考訳(メタデータ) (2023-05-11T16:01:23Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。