論文の概要: Model-Distributed Inference for Large Language Models at the Edge
- arxiv url: http://arxiv.org/abs/2505.18164v1
- Date: Tue, 13 May 2025 12:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.412617
- Title: Model-Distributed Inference for Large Language Models at the Edge
- Title(参考訳): エッジにおける大規模言語モデルのモデル分散推論
- Authors: Davide Macario, Hulya Seferoglu, Erdem Koyuncu,
- Abstract要約: 大規模言語モデル(MDI-LLM)のためのモデル分散推論を提案する。
MDI-LLMは最先端の低消費電力デバイスへの最先端の大規模言語モデル(LLM)の展開を容易にするように設計されている。
- 参考スコア(独自算出の注目度): 17.03578629673371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Model-Distributed Inference for Large-Language Models (MDI-LLM), a novel framework designed to facilitate the deployment of state-of-the-art large-language models (LLMs) across low-power devices at the edge. This is accomplished by dividing the model into multiple partitions, which are then assigned to different devices/nodes within the network. These nodes exchange intermediate activation vectors via device-to-device links, enabling collaborative computation. To enhance the efficiency of this process, we propose the "recurrent pipeline parallelism" technique, which reduces idle time on each device and facilitates parallel inference during the generation of multiple text sequences. By leveraging the combined computational resources of multiple edge devices, MDI-LLM enables the deployment of LLMs that exceed the memory capacity of individual devices, making it possible to perform inference on low-cost hardware. Furthermore, as the number of participating devices increases, MDI-LLM boosts token generation throughput and reduces memory consumption per device.
- Abstract(参考訳): MDI-LLM(MDI-LLM)は、最先端の低消費電力デバイスにまたがる最先端の大規模言語モデル(LLM)の展開を容易にするために設計された新しいフレームワークである。
これはモデルを複数のパーティションに分割することで実現され、ネットワーク内のさまざまなデバイス/ノードに割り当てられる。
これらのノードはデバイス間リンクを介して中間活性化ベクトルを交換し、協調計算を可能にする。
このプロセスの効率を高めるために,複数のテキスト列の生成において,各装置のアイドル時間を短縮し,並列推論を容易にする「リカレントパイプライン並列化」手法を提案する。
MDI-LLMは、複数のエッジデバイスの複合計算資源を活用することで、個々のデバイスのメモリ容量を超えるLCMの展開を可能にし、低コストなハードウェアでの推論を可能にする。
さらに、参加デバイス数が増加するにつれて、MDI-LLMはトークン生成スループットを高め、デバイス当たりのメモリ消費を減らす。
関連論文リスト
- Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution [39.033040759452504]
Deep Neural Networks(DNN)は、さまざまな産業に展開され、モバイルデバイスのサポートの需要が高まっている。
既存のモバイル推論フレームワークは、ハードウェアの使用を制限し、最適性能とエネルギー効率を引き起こすため、モデルごとにひとつのプロセッサに依存していることが多い。
本稿では,モバイルヘテロジニアスプロセッサ上でのマルチDNN推論を最適化するためのAdvanced Multi-DNN Model Scheduling (ADMS) 戦略を提案する。
論文 参考訳(メタデータ) (2025-03-27T03:03:09Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。
本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文 参考訳(メタデータ) (2023-10-02T16:55:19Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Memory-efficient array redistribution through portable collective
communication [0.4096453902709291]
MPIスタイルの集合演算のシーケンスとして配列再分配を合成するためのタイプ指向のアプローチを提案する。
我々は, 合成再分配がメモリ効率が高く, 過剰なデータ転送は行わないことを正式に証明した。
我々はXLA実装に対する我々のアプローチを評価し、我々のアプローチは幾何平均スピードアップが$1.22times$であり、最大スピードアップが$5.7times$であることを示した。
論文 参考訳(メタデータ) (2021-12-02T09:32:07Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。