論文の概要: Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design
- arxiv url: http://arxiv.org/abs/2410.19123v1
- Date: Thu, 24 Oct 2024 19:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:46.126431
- Title: Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design
- Title(参考訳): Read-ME: LLMをレギュラーデカップリングしたエキスパートとシステム共設計の混合体としてリファクタリングする
- Authors: Ruisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang,
- Abstract要約: 本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
- 参考スコア(独自算出の注目度): 59.00758127310582
- License:
- Abstract: The proliferation of large language models (LLMs) has led to the adoption of Mixture-of-Experts (MoE) architectures that dynamically leverage specialized subnetworks for improved efficiency and performance. Despite their benefits, MoE models face significant challenges during inference, including inefficient memory management and suboptimal batching, due to misaligned design choices between the model architecture and the system policies. Furthermore, the conventional approach of training MoEs from scratch is increasingly prohibitive in terms of cost. In this paper, we propose a novel framework Read-ME that transforms pre-trained dense LLMs into smaller MoE models (in contrast to "upcycling" generalist MoEs), avoiding the high costs of ground-up training. Our approach employs activation sparsity to extract experts. To compose experts, we examine the widely-adopted layer-wise router design and show its redundancy, and thus we introduce the pre-gating router decoupled from the MoE backbone that facilitates system-friendly pre-computing and lookahead scheduling, enhancing expert-aware batching and caching. Our codesign therefore addresses critical gaps on both the algorithmic and system fronts, establishing a scalable and efficient alternative for LLM inference in resource-constrained settings. Read-ME outperforms other popular open-source dense models of similar scales, achieving improvements of up to 10.1% on MMLU, and improving mean end-to-end latency up to 6.1%. Codes are available at: https://github.com/VITA-Group/READ-ME.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及は、効率と性能を向上させるために専門のサブネットを動的に活用するMixture-of-Experts (MoE)アーキテクチャの採用につながった。
これらの利点にもかかわらず、MoEモデルは、モデルアーキテクチャとシステムポリシーの間に不整合な設計選択があるため、非効率なメモリ管理や最適でないバッチなど、推論中に重大な課題に直面します。
さらに、コストの観点からは、従来のMoEをスクラッチからトレーニングするアプローチは、ますます禁じられている。
本稿では,事前学習した高密度LCMをより小さなMoEモデルに変換する新しいフレームワークであるRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
そこで本研究では,システムフレンドリーな事前計算とルックアヘッドスケジューリング,エキスパート対応のバッチ処理とキャッシュを容易にする,MoEバックボーンから分離したプリゲートルータを提案する。
私たちのコードデザインは、アルゴリズムとシステムの両方の面で重要なギャップに対処し、リソース制約のある環境でのLLM推論のスケーラブルで効率的な代替手段を確立します。
Read-MEは、同様のスケールの他の一般的なオープンソース高密度モデルよりも優れており、MMLUで最大10.1%の改善を実現し、平均的なエンドツーエンドのレイテンシを最大6.1%改善している。
コードは、https://github.com/VITA-Group/READ-MEで入手できる。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Ada-K Routing: Boosting the Efficiency of MoE-based LLMs [6.954735360168147]
トークンごとにアクティベートされた専門家の数を動的に調整する新しいAda-Kルーティング戦略を提案する。
我々の戦略は学習可能で軽量なアロケータモジュールを組み込んでおり、各トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する。
論文 参考訳(メタデータ) (2024-10-14T12:50:04Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - When Computing Power Network Meets Distributed Machine Learning: An
Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。
私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文 参考訳(メタデータ) (2023-05-22T12:36:52Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。