論文の概要: Splitwise: Collaborative Edge-Cloud Inference for LLMs via Lyapunov-Assisted DRL
- arxiv url: http://arxiv.org/abs/2512.23310v1
- Date: Mon, 29 Dec 2025 08:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.446414
- Title: Splitwise: Collaborative Edge-Cloud Inference for LLMs via Lyapunov-Assisted DRL
- Title(参考訳): 分割:Lyapunov-Assisted DRLによるLCMの協調エッジクラウド推論
- Authors: Abolfazl Younesi, Abbas Shabrang Maryan, Elyas Oustad, Zahra Najafabadi Samani, Mohsen Ansari, Thomas Fahringer,
- Abstract要約: エッジデバイス上の大規模言語モデル(LLM)は、メモリと電力資源が限られているため、困難である。
本研究では,Lyapunov 支援の深層強化学習フレームワークである Splitwise を提案する。
実験の結果、Splitwiseはエンド・ツー・エンドのレイテンシを1.4x-2.8x削減し、既存のパーティショナと比較してエネルギー消費量を最大41%削減した。
- 参考スコア(独自算出の注目度): 1.0326810616158975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) on edge devices is challenging due to their limited memory and power resources. Cloud-only inference reduces device burden but introduces high latency and cost. Static edge-cloud partitions optimize a single metric and struggle when bandwidth fluctuates. We propose Splitwise, a novel Lyapunov-assisted deep reinforcement learning (DRL) framework for fine-grained, adaptive partitioning of LLMs across edge and cloud environments. Splitwise decomposes transformer layers into attention heads and feed-forward sub-blocks, exposing more partition choices than layer-wise schemes. A hierarchical DRL policy, guided by Lyapunov optimization, jointly minimizes latency, energy consumption, and accuracy degradation while guaranteeing queue stability under stochastic workloads and variable network bandwidth. Splitwise also guarantees robustness via partition checkpoints with exponential backoff recovery in case of communication failures. Experiments on Jetson Orin NX, Galaxy S23, and Raspberry Pi 5 with GPT-2 (1.5B), LLaMA-7B, and LLaMA-13B show that Splitwise reduces end-to-end latency by 1.4x-2.8x and cuts energy consumption by up to 41% compared with existing partitioners. It lowers the 95th-percentile latency by 53-61% relative to cloud-only execution, while maintaining accuracy and modest memory requirements.
- Abstract(参考訳): エッジデバイスに大規模言語モデル(LLM)をデプロイするのは、メモリと電力資源が限られているため、難しい。
クラウドのみの推論はデバイスの負担を軽減するが、高いレイテンシとコストをもたらす。
静的エッジクラウドパーティションは、単一メトリックを最適化し、帯域幅が変動した場合に苦労する。
本稿では,Lyapunov支援深部強化学習(DRL)フレームワークのSplitwiseを提案する。
スプリットワイズでは、トランスフォーマー層をアテンションヘッドとフィードフォワードサブブロックに分解し、レイヤワイズ方式よりもパーティション選択を露呈する。
Lyapunov最適化によって導かれる階層型DRLポリシは、確率的ワークロードと可変ネットワーク帯域のキュー安定性を確保しながら、レイテンシ、エネルギー消費、精度の低下を共同で最小化する。
スプリットワイズはまた、通信障害時に指数的なバックオフリカバリを伴うパーティションチェックポイントを介して堅牢性を保証する。
Jetson Orin NX, Galaxy S23, Raspberry Pi 5 の GPT-2 (1.5B), LLaMA-7B, LLaMA-13B による実験では,Splitwise によるエンドツーエンドのレイテンシの 1.4x-2.8x 削減と,既存のパーティショナと比較してエネルギー消費量の最大 41% 削減が示されている。
正確性と控えめなメモリ要件を維持しながら、クラウドのみの実行に対して95%のレイテンシを53-61%削減する。
関連論文リスト
- Why Should the Server Do It All?: A Scalable, Versatile, and Model-Agnostic Framework for Server-Light DNN Inference over Massively Distributed Clients via Training-Free Intermediate Feature Compression [6.932768187544348]
スプリットコンピューティングにおける通信負荷とサーバ負荷の両方を削減するためにIFを圧縮する、リトレーニングフリーでアーキテクチャに依存しないフレームワークであるSLICERを紹介した。
標準的なビジョンとLLMワークロード全体にわたって、SLICERはアップリンクボリュームを最大10倍、サーバGPU時間を最大4.4倍削減する。
論文 参考訳(メタデータ) (2025-11-03T08:44:13Z) - A Novel Hat-Shaped Device-Cloud Collaborative Inference Framework for Large Language Models [12.644230479753476]
従来のクラウドベースの大規模言語モデル(LLM)は、高精度な要件を満たすが、低遅延とプライバシー強化に対する重要な要求には欠ける。
我々は,U字型推論と投機的復号化の相補的長所を生かした,新しいデバイス-クラウド協調型推論フレームワークであるHATを提案する。
HATは,TTFTを41%,TBTを41%,TBTを77%削減し,有望な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-03-23T10:54:58Z) - SplitFrozen: Split Learning with Device-side Model Frozen for Fine-Tuning LLM on Heterogeneous Resource-Constrained Devices [15.790762116995845]
プライベート、オンデバイスデータに基づく細調整された大型言語モデル(LLM)は、パーソナライズされたパーソナライズされたAIエージェントを強化することができる。
本稿では,資源制約のあるエッジデバイス上で効率的な微調整を可能にする分割学習フレームワークSplitFrozenを提案する。
MRPC、MNLIマッチング、SST-2データセットによるGPT-2の実験では、極めて不均衡なデータの下で、SplitFrozenはFedLoRAとSplitLoRAの精度を69.4%上回っている。
論文 参考訳(メタデータ) (2025-03-23T08:03:44Z) - Efficient Deployment of Large Language Models on Resource-constrained Devices [12.644230479753476]
様々な下流タスクのために、リソース制約されたデバイス上でLLM(Large Language Models)を微調整する必要がある。
FedSpineは、PEFT(Efficient Fine-Tuning)と構造化プルーニングを組み合わせたフレームワークで、リソース制約のあるデバイスにLLMを効率的にデプロイする。
我々はFedSpineが1.4Times$$$timesで微調整を高速化し、最終的な精度を他のベースラインと比べて同じ間隔で0.4%-4.5%向上できることを示した。
論文 参考訳(メタデータ) (2025-01-05T04:38:11Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。
LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。
本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。