論文の概要: Jupiter: Fast and Resource-Efficient Collaborative Inference of Generative LLMs on Edge Devices
- arxiv url: http://arxiv.org/abs/2504.08242v1
- Date: Fri, 11 Apr 2025 03:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 21:26:31.269593
- Title: Jupiter: Fast and Resource-Efficient Collaborative Inference of Generative LLMs on Edge Devices
- Title(参考訳): ジュピター:エッジデバイス上の生成LDMの高速かつ資源効率のラボレーティブ推論
- Authors: Shengyuan Ye, Bei Ouyang, Liekang Zeng, Tianyi Qian, Xiaowen Chu, Jian Tang, Xu Chen,
- Abstract要約: 生成型大規模言語モデル(LLM)は、さまざまなAIタスクにおける例外的な機能のため、大きな注目を集めている。
個々のエッジデバイスの限られた計算資源は、過度に長い推論遅延と過剰なメモリ使用量をもたらす可能性がある。
我々は、ジェネレーションLLM推論のための高速でスケーラブルで資源効率の良い協調エッジAIシステムであるJupiterを提案する。
- 参考スコア(独自算出の注目度): 21.520387382163978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative large language models (LLMs) have garnered significant attention due to their exceptional capabilities in various AI tasks. Traditionally deployed in cloud datacenters, LLMs are now increasingly moving towards more accessible edge platforms to protect sensitive user data and ensure privacy preservation. The limited computational resources of individual edge devices, however, can result in excessively prolonged inference latency and overwhelmed memory usage. While existing research has explored collaborative edge computing to break the resource wall of individual devices, these solutions yet suffer from massive communication overhead and under-utilization of edge resources. Furthermore, they focus exclusively on optimizing the prefill phase, neglecting the crucial autoregressive decoding phase for generative LLMs. To address that, we propose Jupiter, a fast, scalable, and resource-efficient collaborative edge AI system for generative LLM inference. Jupiter introduces a flexible pipelined architecture as a principle and differentiates its system design according to the differentiated characteristics of the prefill and decoding phases. For prefill phase, Jupiter submits a novel intra-sequence pipeline parallelism and develops a meticulous parallelism planning strategy to maximize resource efficiency; For decoding, Jupiter devises an effective outline-based pipeline parallel decoding mechanism combined with speculative decoding, which further magnifies inference acceleration. Extensive evaluation based on realistic implementation demonstrates that Jupiter remarkably outperforms state-of-the-art approaches under various edge environment setups, achieving up to 26.1x end-to-end latency reduction while rendering on-par generation quality.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)は、さまざまなAIタスクにおける例外的な機能のため、大きな注目を集めている。
従来、LLMはクラウドデータセンタにデプロイされていたため、機密性の高いユーザデータを保護し、プライバシ保護を確保するために、よりアクセスしやすいエッジプラットフォームへと移行している。
しかし、個々のエッジデバイスの限られた計算資源は、過度に長い推論遅延と過剰なメモリ使用量をもたらす可能性がある。
既存の研究は、個々のデバイスのリソース壁を壊すために、協調的なエッジコンピューティングを探索してきたが、これらのソリューションは、大きな通信オーバーヘッドとエッジリソースの非活用に苦しむ。
さらに, 生成LDMの重要な自己回帰復号相を無視して, プリフィル位相の最適化にのみ焦点をあてた。
そこで我々は,ジェネレーションLLM推論のための,高速でスケーラブルで資源効率のよい協調エッジAIシステムであるJupiterを提案する。
ジュピターはフレキシブルパイプラインアーキテクチャを原則として導入し、プリフィルとデコードフェーズの区別された特性に応じてシステム設計を区別する。
プリフィルフェイズのために、ジュピターは新たなシーケンス内パイプライン並列化を提出し、リソース効率を最大化するための巧妙な並列化計画戦略を開発する。
現実的な実装に基づく広範囲な評価は、木星が様々なエッジ環境において最先端のアプローチを著しく上回り、最大で26.1倍のレイテンシの低下を達成し、オンパー生成品質を低下させることを示した。
関連論文リスト
- A Hybrid Swarm Intelligence Approach for Optimizing Multimodal Large Language Models Deployment in Edge-Cloud-based Federated Learning Environments [10.72166883797356]
Federated Learning (FL)、Multimodal Large Language Models (MLLM)、エッジ・クラウド・コンピューティングは分散およびリアルタイムのデータ処理を可能にする。
そこで本研究では,MLLMを十分なリソースとバッテリ寿命を備えたエッジデバイスにデプロイするハイブリッドフレームワークを提案する。
実験の結果,提案手法はシステム性能を大幅に向上し,92%の精度を実現し,通信コストを30%削減し,クライアントの参加性を高めた。
論文 参考訳(メタデータ) (2025-02-04T03:03:24Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Split Federated Learning Over Heterogeneous Edge Devices: Algorithm and Optimization [7.013344179232109]
Split Learning(SL)は、リソース制約のあるデバイスが生データを共有せずにモデルをトレーニングできるようにする、有望なコラボレーティブ機械学習アプローチである。
現在のSLアルゴリズムは、トレーニング効率の限界に直面し、長時間のレイテンシに悩まされている。
本稿では、リソース制約のあるクライアントが、パーソナライズされたクライアントサイドモデルを並列にトレーニングできる、異種分散フェデレーションラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:46:01Z) - Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-Tuning [13.26886445965894]
Pluto and Charon(PAC)は、個人用LLMの微調整のための、時間とメモリ効率のよい協調エッジAIフレームワークである。
PACは、パラメータ、時間、メモリの点で効率的なパーソナルLLMの微調整技術を実装している。
プロトタイプ実装に基づく大規模な評価は、PACが最先端のアプローチを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-20T11:30:12Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。