Fugu-MT 論文翻訳(概要): Model-Distributed Inference for Large Language Models at the Edge

論文の概要: Model-Distributed Inference for Large Language Models at the Edge

arxiv url: http://arxiv.org/abs/2505.18164v1
Date: Tue, 13 May 2025 12:07:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-01 23:16:01.412617
Title: Model-Distributed Inference for Large Language Models at the Edge
Title（参考訳）: エッジにおける大規模言語モデルのモデル分散推論
Authors: Davide Macario, Hulya Seferoglu, Erdem Koyuncu,
Abstract要約: 大規模言語モデル(MDI-LLM)のためのモデル分散推論を提案する。 MDI-LLMは最先端の低消費電力デバイスへの最先端の大規模言語モデル(LLM)の展開を容易にするように設計されている。
参考スコア（独自算出の注目度）: 17.03578629673371
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Model-Distributed Inference for Large-Language Models (MDI-LLM), a novel framework designed to facilitate the deployment of state-of-the-art large-language models (LLMs) across low-power devices at the edge. This is accomplished by dividing the model into multiple partitions, which are then assigned to different devices/nodes within the network. These nodes exchange intermediate activation vectors via device-to-device links, enabling collaborative computation. To enhance the efficiency of this process, we propose the "recurrent pipeline parallelism" technique, which reduces idle time on each device and facilitates parallel inference during the generation of multiple text sequences. By leveraging the combined computational resources of multiple edge devices, MDI-LLM enables the deployment of LLMs that exceed the memory capacity of individual devices, making it possible to perform inference on low-cost hardware. Furthermore, as the number of participating devices increases, MDI-LLM boosts token generation throughput and reduces memory consumption per device.
Abstract（参考訳）: MDI-LLM(MDI-LLM)は、最先端の低消費電力デバイスにまたがる最先端の大規模言語モデル(LLM)の展開を容易にするために設計された新しいフレームワークである。これはモデルを複数のパーティションに分割することで実現され、ネットワーク内のさまざまなデバイス/ノードに割り当てられる。これらのノードはデバイス間リンクを介して中間活性化ベクトルを交換し、協調計算を可能にする。このプロセスの効率を高めるために,複数のテキスト列の生成において,各装置のアイドル時間を短縮し,並列推論を容易にする「リカレントパイプライン並列化」手法を提案する。 MDI-LLMは、複数のエッジデバイスの複合計算資源を活用することで、個々のデバイスのメモリ容量を超えるLCMの展開を可能にし、低コストなハードウェアでの推論を可能にする。さらに、参加デバイス数が増加するにつれて、MDI-LLMはトークン生成スループットを高め、デバイス当たりのメモリ消費を減らす。

関連論文リスト

MNN-LLM: A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices [4.385815629175844]
MNN-LLMは、モバイルデバイスへの大規模言語モデルのデプロイを加速するために設計されたフレームワークである。モデル量子化とDRAM-FlashハイブリッドストレージによるLCMのランタイム特性に対処する。特に、MNN-LLMは、現在のLLM固有のフレームワークと比較して8.6倍の速度向上を実現している。
論文参考訳（メタデータ） (2025-06-12T07:45:29Z)
Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution [39.033040759452504]
Deep Neural Networks(DNN)は、さまざまな産業に展開され、モバイルデバイスのサポートの需要が高まっている。既存のモバイル推論フレームワークは、ハードウェアの使用を制限し、最適性能とエネルギー効率を引き起こすため、モデルごとにひとつのプロセッサに依存していることが多い。本稿では,モバイルヘテロジニアスプロセッサ上でのマルチDNN推論を最適化するためのAdvanced Multi-DNN Model Scheduling (ADMS) 戦略を提案する。
論文参考訳（メタデータ） (2025-03-27T03:03:09Z)
HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文参考訳（メタデータ） (2025-03-12T06:01:05Z)
Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。 LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文参考訳（メタデータ） (2024-06-16T09:51:55Z)
Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。 LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文参考訳（メタデータ） (2024-05-03T02:15:15Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文参考訳（メタデータ） (2023-10-02T16:55:19Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Memory-efficient array redistribution through portable collective communication [0.4096453902709291]
MPIスタイルの集合演算のシーケンスとして配列再分配を合成するためのタイプ指向のアプローチを提案する。我々は, 合成再分配がメモリ効率が高く, 過剰なデータ転送は行わないことを正式に証明した。我々はXLA実装に対する我々のアプローチを評価し、我々のアプローチは幾何平均スピードアップが$1.22times$であり、最大スピードアップが$5.7times$であることを示した。
論文参考訳（メタデータ） (2021-12-02T09:32:07Z)
Computational Intelligence and Deep Learning for Next-Generation Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文参考訳（メタデータ） (2021-10-28T08:14:57Z)
SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。 S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。 SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文参考訳（メタデータ） (2021-09-08T22:06:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。