論文の概要: WDMoE: Wireless Distributed Large Language Models with Mixture of Experts
- arxiv url: http://arxiv.org/abs/2405.03131v1
- Date: Mon, 6 May 2024 02:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:54:58.393521
- Title: WDMoE: Wireless Distributed Large Language Models with Mixture of Experts
- Title(参考訳): WDMoE: 専門家の混在によるワイヤレス分散大規模言語モデル
- Authors: Nan Xue, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Liang Qian, Shuguang Cui, Ping Zhang,
- Abstract要約: 我々は,Mixture of Experts (MoE)に基づく無線分散大言語モデル(LLM)パラダイムを提案する。
我々は,基地局(BS)とモバイルデバイスにゲーティングネットワークと先行するニューラルネットワーク層を配置することにより,LLM内のMoE層を分解する。
我々は、モデルの性能とエンドツーエンドのレイテンシの両方を考慮して、専門家の選択ポリシーを設計する。
- 参考スコア(独自算出の注目度): 65.57581050707738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved significant success in various natural language processing tasks, but how wireless communications can support LLMs has not been extensively studied. In this paper, we propose a wireless distributed LLMs paradigm based on Mixture of Experts (MoE), named WDMoE, deploying LLMs collaboratively across edge servers of base station (BS) and mobile devices in the wireless communications system. Specifically, we decompose the MoE layer in LLMs by deploying the gating network and the preceding neural network layer at BS, while distributing the expert networks across the devices. This arrangement leverages the parallel capabilities of expert networks on distributed devices. Moreover, to overcome the instability of wireless communications, we design an expert selection policy by taking into account both the performance of the model and the end-to-end latency, which includes both transmission delay and inference delay. Evaluations conducted across various LLMs and multiple datasets demonstrate that WDMoE not only outperforms existing models, such as Llama 2 with 70 billion parameters, but also significantly reduces end-to-end latency.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めてきたが、無線通信がLLMをサポートする方法については研究されていない。
本稿では,Mixture of Experts (MoE) に基づく無線分散LLMのパラダイムを提案し,無線通信システムにおける基地局(BS) とモバイルデバイスのエッジサーバ間で協調してLLMをデプロイする。
具体的には、ゲートネットワークと先行するニューラルネットワーク層をBSに配置し、専門家ネットワークをデバイス全体に分散させることにより、LEM内のMoE層を分解する。
このアレンジメントは、分散デバイス上のエキスパートネットワークの並列能力を活用する。
さらに、無線通信の不安定性を克服するため、送信遅延と推論遅延の両方を含むモデルの性能とエンドツーエンド遅延の両方を考慮して、専門家の選択ポリシーを設計する。
さまざまなLLMと複数のデータセットで実施された評価によると、WDMoEは、Llama 2のような既存のモデルに700億のパラメータで勝っているだけでなく、エンドツーエンドのレイテンシを大幅に削減している。
関連論文リスト
- WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Leveraging Large Language Models for Wireless Symbol Detection via In-Context Learning [29.28683810366379]
本稿では,大規模言語モデル(LLM)の文脈内学習能力(即ち,プロンプト)を活用して,学習や微調整をすることなく,低データ体制下での無線タスクを解決することを提案する。
この結果から,ICL法によるLCMはシンボル復調作業において従来のDNNよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-28T17:19:20Z) - Beam Prediction based on Large Language Models [51.45077318268427]
ミリ波(mmWave)通信は次世代無線ネットワークに期待できるが、パス損失は大きい。
長短期記憶(LSTM)のような従来のディープラーニングモデルでは、ビーム追跡精度が向上するが、ロバスト性や一般化が不足している。
本稿では,大規模言語モデル(LLM)を用いて,ビーム予測の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-08-16T12:40:01Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。