論文の概要: EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices
- arxiv url: http://arxiv.org/abs/2507.01438v1
- Date: Wed, 02 Jul 2025 07:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.088969
- Title: EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices
- Title(参考訳): EdgeLoRA:エッジデバイス上での効率的なマルチテナントLLMサービングシステム
- Authors: Zheyu Shen, Yexiao He, Ziyao Wang, Yuning Zhang, Guoheng Sun, Wanghao Ye, Ang Li,
- Abstract要約: 本稿では,マルチテナント環境におけるエッジデバイス上での大規模言語モデル(LLM)の効率的な提供システムであるEdgeLoRAを紹介する。
EdgeLoRAは、(1)アダプタ設定プロセスを合理化するための適応型アダプタ選択機構、(2)インテリジェントなアダプタキャッシュとプーリングを活用してメモリ操作のオーバーヘッドを軽減する不均一なメモリ管理、(3)効率的なバッチ処理を可能にして計算遅延を大幅に削減するバッチLoRA推論という3つの重要なイノベーションを取り入れている。
- 参考スコア(独自算出の注目度): 7.596547050649462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have gained significant attention due to their versatility across a wide array of applications. Fine-tuning LLMs with parameter-efficient adapters, such as Low-Rank Adaptation (LoRA), enables these models to efficiently adapt to downstream tasks without extensive retraining. Deploying fine-tuned LLMs on multi-tenant edge devices offers substantial benefits, such as reduced latency, enhanced privacy, and personalized responses. However, serving LLMs efficiently on resource-constrained edge devices presents critical challenges, including the complexity of adapter selection for different tasks and memory overhead from frequent adapter swapping. Moreover, given the multiple requests in multi-tenant settings, processing requests sequentially results in underutilization of computational resources and increased latency. This paper introduces EdgeLoRA, an efficient system for serving LLMs on edge devices in multi-tenant environments. EdgeLoRA incorporates three key innovations: (1) an adaptive adapter selection mechanism to streamline the adapter configuration process; (2) heterogeneous memory management, leveraging intelligent adapter caching and pooling to mitigate memory operation overhead; and (3) batch LoRA inference, enabling efficient batch processing to significantly reduce computational latency. Comprehensive evaluations using the Llama3.1-8B model demonstrate that EdgeLoRA significantly outperforms the status quo (i.e., llama.cpp) in terms of both latency and throughput. The results demonstrate that EdgeLoRA can achieve up to a 4 times boost in throughput. Even more impressively, it can serve several orders of magnitude more adapters simultaneously. These results highlight EdgeLoRA's potential to transform edge deployment of LLMs in multi-tenant scenarios, offering a scalable and efficient solution for resource-constrained environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いアプリケーションにまたがる汎用性によって、大きな注目を集めている。
Low-Rank Adaptation (LoRA) のようなパラメータ効率の良いアダプタを備えた微調整LDMでは、広範囲な再トレーニングなしに下流タスクに効率的に適応することができる。
マルチテナントエッジデバイスに微調整のLLMをデプロイすることは、レイテンシの低減、プライバシーの強化、パーソナライズされた応答など、大きなメリットを提供する。
しかし、リソース制約のあるエッジデバイス上でLLMを効率的に提供することは、異なるタスクに対するアダプタ選択の複雑さや、頻繁なアダプタスワップからのメモリオーバーヘッドなど、重要な課題を呈している。
さらに、マルチテナント設定における複数のリクエストを考慮すれば、処理要求は逐次的に計算リソースの未使用化と遅延の増加をもたらす。
本稿では,マルチテナント環境におけるエッジデバイス上でのLDMの効率的な提供システムであるEdgeLoRAを紹介する。
EdgeLoRAは、(1)アダプタ設定プロセスを合理化するための適応型アダプタ選択機構、(2)インテリジェントなアダプタキャッシュとプーリングを活用してメモリ操作のオーバーヘッドを軽減する不均一なメモリ管理、(3)効率的なバッチ処理を可能にして計算遅延を大幅に削減するバッチLoRA推論という3つの重要なイノベーションを取り入れている。
Llama3.1-8Bモデルを用いた総合評価では、EdgeLoRAはレイテンシとスループットの両方でステータスクオ(llama.cpp)を著しく上回っている。
結果は、EdgeLoRAがスループットを最大4倍向上できることを示している。
さらに印象的なことに、同時に数桁のアダプタを提供することができる。
これらの結果は、EdgeLoRAがマルチテナントシナリオにおけるLLMのエッジデプロイメントを変革する可能性を強調し、リソース制約のある環境に対してスケーラブルで効率的なソリューションを提供する。
関連論文リスト
- PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - 3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability [6.451743797015637]
大規模言語モデル (LLM) に適応するために, 簡単な2次元回転を用いた新しい手法RoAdを導入する。
RoAdはパラメータ効率が非常に高く、8つの常識推論タスク、4つの算術推論タスクと0.1%のトレーニング可能なパラメータを提供する。
論文 参考訳(メタデータ) (2024-08-28T08:45:29Z) - EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning and Voting [12.006890185810322]
本稿では,エッジデバイス上での安価かつ効率的なLLM適応を実現するために,Edge-LLMと呼ばれる計算およびメモリ効率の高いLLMチューニングフレームワークを提案する。
具体的には,レイヤワイド統一圧縮(LUC)技術を用いて,レイヤワイドプルーニング空間と量子化ビット幅ポリシを生成して計算オーバーヘッドを削減する,(2)バックプロパゲーション深さを減らしてメモリオーバーヘッドを削減する適応層チューニングと投票方式,(3)LUCが導入した不規則な計算パターンと適応層チューニングを補完するハードウェアスケジューリング戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2024-06-22T06:51:47Z) - MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
MeteoRAはスケーラブルで効率的なフレームワークで、複数のタスク固有のLoRAアダプタをベースLLMに再利用する。
MeteoRAは複合タスクの処理において優れた性能を実現し、単一の推論パスで10のシーケンシャルな問題を効果的に解決する。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。