論文の概要: WDMoE: Wireless Distributed Mixture of Experts for Large Language Models
- arxiv url: http://arxiv.org/abs/2411.06681v1
- Date: Mon, 11 Nov 2024 02:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:35.632133
- Title: WDMoE: Wireless Distributed Mixture of Experts for Large Language Models
- Title(参考訳): WDMoE: 大規模言語モデルのエキスパートの無線分散混合
- Authors: Nan Xue, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Liang Qian, Shuguang Cui, Wenjun Zhang, Ping Zhang,
- Abstract要約: 大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 68.45482959423323
- License:
- Abstract: Large Language Models (LLMs) have achieved significant success in various natural language processing tasks, but the role of wireless networks in supporting LLMs has not been thoroughly explored. In this paper, we propose a wireless distributed Mixture of Experts (WDMoE) architecture to enable collaborative deployment of LLMs across edge servers at the base station (BS) and mobile devices in wireless networks. Specifically, we decompose the MoE layer in LLMs by placing the gating network and the preceding neural network layer at BS, while distributing the expert networks among the devices. This deployment leverages the parallel inference capabilities of expert networks on mobile devices, effectively utilizing the limited computing and caching resources of these devices. Accordingly, we develop a performance metric for WDMoE-based LLMs, which accounts for both model capability and latency. To minimize the latency while maintaining accuracy, we jointly optimize expert selection and bandwidth allocation based on the performance metric. Moreover, we build a hardware testbed using NVIDIA Jetson kits to validate the effectiveness of WDMoE. Both theoretical simulations and practical hardware experiments demonstrate that the proposed method can significantly reduce the latency without compromising LLM performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めてきたが、LLMをサポートする無線ネットワークの役割は十分に解明されていない。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
具体的には、各デバイス間で専門家ネットワークを分散しながら、ゲーティングネットワークと先行するニューラルネットワーク層をBSに配置することで、MOE層をLCMに分解する。
このデプロイメントは、モバイルデバイス上のエキスパートネットワークの並列推論機能を活用し、これらのデバイスの限られたコンピューティングとキャッシュリソースを効果的に活用する。
そこで我々は,WDMoEをベースとしたLCMの性能指標を開発し,モデル性能とレイテンシを両立させた。
精度を保ちながらレイテンシを最小限に抑えるため、性能指標に基づいて専門家の選択と帯域幅割り当てを共同で最適化する。
さらに,NVIDIA Jetsonキットを用いたハードウェアテストベッドを構築し,WDMoEの有効性を検証する。
理論シミュレーションと実用ハードウェア実験の両方で,LLM性能を損なうことなく,提案手法が遅延を大幅に低減できることを示した。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - WDMoE: Wireless Distributed Large Language Models with Mixture of Experts [65.57581050707738]
我々は,Mixture of Experts (MoE)に基づく無線分散大言語モデル(LLM)パラダイムを提案する。
我々は,基地局(BS)とモバイルデバイスにゲーティングネットワークと先行するニューラルネットワーク層を配置することにより,LLM内のMoE層を分解する。
我々は、モデルの性能とエンドツーエンドのレイテンシの両方を考慮して、専門家の選択ポリシーを設計する。
論文 参考訳(メタデータ) (2024-05-06T02:55:50Z) - NetLLM: Adapting Large Language Models for Networking [36.61572542761661]
我々は,ネットワーク問題を解決するために低努力でLLMの強力な能力を活用するためのコヒーレントな設計を提供する最初のフレームワークであるNetLLMを紹介する。
具体的には、NetLLMはLLMにネットワーク上のマルチモーダルデータを効果的に処理し、タスク固有の回答を効率的に生成する権限を与える。
論文 参考訳(メタデータ) (2024-02-04T04:21:34Z) - Device Sampling and Resource Optimization for Federated Learning in Cooperative Edge Networks [17.637761046608]
フェデレーテッド・ラーニング(FedL)は、サーバによって定期的に集約されたローカルモデルをトレーニングすることで、機械学習(ML)をワーカーデバイスに分散させる。
FedLは、同時代の無線ネットワークの2つの重要な特徴を無視している: (i) ネットワークには異種通信/計算資源が含まれており、 (ii) デバイスのローカルデータ分布にかなりの重複がある可能性がある。
デバイス間オフロード(D2D)によって補完されるインテリジェントデバイスサンプリングにより,これらの要因を共同で考慮する新しい最適化手法を開発した。
論文 参考訳(メタデータ) (2023-11-07T21:17:59Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z) - Device Sampling for Heterogeneous Federated Learning: Theory,
Algorithms, and Implementation [24.084053136210027]
グラフシーケンシャル畳み込みネットワーク(GCN)に基づくサンプリング手法を開発した。
提案手法は,全機器の5%以下をサンプリングしながら,訓練されたモデル精度と必要なリソース利用の両面で,fedl(federated learning)を実質的に上回っている。
論文 参考訳(メタデータ) (2021-01-04T05:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。