Fugu-MT 論文翻訳(概要): Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

論文の概要: Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

arxiv url: http://arxiv.org/abs/2410.19123v1
Date: Thu, 24 Oct 2024 19:48:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.156015
Title: Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design
Title（参考訳）: Read-ME: LLMをレギュラーデカップリングしたエキスパートとシステム共設計の混合体としてリファクタリングする
Authors: Ruisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang,
Abstract要約: 本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
参考スコア（独自算出の注目度）: 59.00758127310582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The proliferation of large language models (LLMs) has led to the adoption of Mixture-of-Experts (MoE) architectures that dynamically leverage specialized subnetworks for improved efficiency and performance. Despite their benefits, MoE models face significant challenges during inference, including inefficient memory management and suboptimal batching, due to misaligned design choices between the model architecture and the system policies. Furthermore, the conventional approach of training MoEs from scratch is increasingly prohibitive in terms of cost. In this paper, we propose a novel framework Read-ME that transforms pre-trained dense LLMs into smaller MoE models (in contrast to "upcycling" generalist MoEs), avoiding the high costs of ground-up training. Our approach employs activation sparsity to extract experts. To compose experts, we examine the widely-adopted layer-wise router design and show its redundancy, and thus we introduce the pre-gating router decoupled from the MoE backbone that facilitates system-friendly pre-computing and lookahead scheduling, enhancing expert-aware batching and caching. Our codesign therefore addresses critical gaps on both the algorithmic and system fronts, establishing a scalable and efficient alternative for LLM inference in resource-constrained settings. Read-ME outperforms other popular open-source dense models of similar scales, achieving improvements of up to 10.1% on MMLU, and improving mean end-to-end latency up to 6.1%. Codes are available at: https://github.com/VITA-Group/READ-ME.
Abstract（参考訳）: 大規模言語モデル(LLM)の普及は、効率と性能を向上させるために専門のサブネットを動的に活用するMixture-of-Experts (MoE)アーキテクチャの採用につながった。これらの利点にもかかわらず、MoEモデルは、モデルアーキテクチャとシステムポリシーの間に不整合な設計選択があるため、非効率なメモリ管理や最適でないバッチなど、推論中に重大な課題に直面します。さらに、コストの観点からは、従来のMoEをスクラッチからトレーニングするアプローチは、ますます禁じられている。本稿では,事前学習した高密度LCMをより小さなMoEモデルに変換する新しいフレームワークであるRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。そこで本研究では,システムフレンドリーな事前計算とルックアヘッドスケジューリング,エキスパート対応のバッチ処理とキャッシュを容易にする,MoEバックボーンから分離したプリゲートルータを提案する。私たちのコードデザインは、アルゴリズムとシステムの両方の面で重要なギャップに対処し、リソース制約のある環境でのLLM推論のスケーラブルで効率的な代替手段を確立します。 Read-MEは、同様のスケールの他の一般的なオープンソース高密度モデルよりも優れており、MMLUで最大10.1%の改善を実現し、平均的なエンドツーエンドのレイテンシを最大6.1%改善している。コードは、https://github.com/VITA-Group/READ-MEで入手できる。

関連論文リスト

Realizing Scaling Laws in Recommender Systems: A Foundation-Expert Paradigm for Hyperscale Model Deployment [16.883389041355073]
本稿では,超大規模レコメンデーションFMの開発と展開を目的としたフレームワークを提案する。提案手法では, 生涯にわたる, クロスサイト, マルチモーダルなユーザデータに基づいて, 一般化可能な知識を学習する。この知識は、ターゲット認識の埋め込みを通じて、様々な軽量で表面特異的な「専門家」モデルに効率的に伝達される。
論文参考訳（メタデータ） (2025-08-04T22:03:13Z)
MTGR: Industrial-Scale Generative Recommendation Framework in Meituan [28.92150571719811]
この問題に対処するためにMTGR(Meituan Generative Recommendation)を提案する。 MTGRはユーザレベルの圧縮によってトレーニングと推論の高速化を実現し、効率的なスケーリングを実現する。この突破口は世界最大のフードデリバリープラットフォームであるMeituanに配備された。
論文参考訳（メタデータ） (2025-05-24T11:47:28Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。 CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-06T14:05:30Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Ada-K Routing: Boosting the Efficiency of MoE-based LLMs [6.954735360168147]
トークンごとにアクティベートされた専門家の数を動的に調整する新しいAda-Kルーティング戦略を提案する。我々の戦略は学習可能で軽量なアロケータモジュールを組み込んでおり、各トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する。
論文参考訳（メタデータ） (2024-10-14T12:50:04Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
When Computing Power Network Meets Distributed Machine Learning: An Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文参考訳（メタデータ） (2023-05-22T12:36:52Z)
Optimization-driven Machine Learning for Intelligent Reflecting Surfaces Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文参考訳（メタデータ） (2020-08-29T08:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。