論文の概要: Synera: Synergistic LLM Serving across Device and Cloud at Scale
- arxiv url: http://arxiv.org/abs/2511.07423v1
- Date: Fri, 17 Oct 2025 04:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.040298
- Title: Synera: Synergistic LLM Serving across Device and Cloud at Scale
- Title(参考訳): Synera: デバイスとクラウドをまたがってスケールするSynergistic LLM
- Authors: Genglin Wang, Liekang Zeng, Bufang Yang, Kaiwei Liu, Guoliang Xing, Chumin Sun, Li Zhou, Jie Sun, Zhenyu Yan,
- Abstract要約: 大規模言語モデル(LLM)は、様々なモバイルオペレーティングシステムにおいて重要なコンポーネントになりつつある。
デプロイメントは、パフォーマンス上の課題、特に生成品質と長時間の遅延劣化に悩まされている。
本稿では,効率的なSLM-LLM合成機構を応用したデバイスクラウド同期型LCMサービスシステムであるSyneraを提案する。
- 参考スコア(独自算出の注目度): 8.533983798094683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are becoming key components in various mobile operating systems, driving smart applications like interactive chatbots and personal assistants. While bringing enhanced intelligence to mobile ends, their deployment suffers from a set of performance challenges, especially the generation quality degradation and prolonged latency. Prior works have mainly relied on solutions of cloud offloading or on-device Small Language Models (SLMs). However, the former is usually limited by the communication bottleneck, and the latter sacrifices generation quality due to resource constraints. To mitigate these limitations, this paper proposes Synera, a device-cloud synergistic LLM serving system that applies an efficient SLM-LLM synergistic mechanism. Through empirical studies on LLM's unique computing characteristics, Synera identifies a set of underexplored optimization opportunities in device-cloud synergistic LLM inference, including offloading decisions, pipeline stalls, and batching bottlenecks. To translate them into enhanced performance, Synera introduces tailored designs of communication-efficient selective offloading, stall-free parallel inference, and scalable cloud batching. Extensive evaluations with real-world testbeds show that Synera enables 1.20-5.47x better generation quality against competitive baselines with on-par latency performance. Compared with existing cloud serving, Synera achieves 8.2-16.5% lower cloud serving cost on various benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなモバイルオペレーティングシステムの主要なコンポーネントとなり、対話型チャットボットやパーソナルアシスタントのようなスマートアプリケーションを駆動している。
モバイルエンドに高度なインテリジェンスをもたらす一方で、そのデプロイメントにはパフォーマンス上の課題、特に生成品質の劣化と長時間のレイテンシが伴う。
以前の作業は主に、クラウドオフロードやデバイス上のSLM(Small Language Models)のソリューションに依存していました。
しかしながら、前者は通信ボトルネックによって制限され、後者はリソースの制約により生成品質を犠牲にする。
これらの制約を緩和するために,効率的なSLM-LLM合成機構を応用したデバイス-クラウド同期型LCMサービスシステムであるSyneraを提案する。
LLMのユニークなコンピューティング特性に関する実証的研究を通じて、Synera氏は、オフロード決定、パイプラインストール、バッチ化ボトルネックを含む、デバイスクラウドのシナジスティックLPM推論において、未調査の最適化機会のセットを特定した。
それらをパフォーマンス向上に変換するため、Syneraでは、通信効率の高い選択的オフロード、ストールフリーな並列推論、スケーラブルなクラウドバッチの設計を導入している。
実世界のテストベッドによる大規模な評価は、Syneraがオンパー遅延性能を持つ競合ベースラインに対して1.20-5.47倍の世代品質を実現していることを示している。
既存のクラウドサービスと比較して、Syneraは様々なベンチマークで8.2-16.5%低いクラウドサービスコストを達成した。
関連論文リスト
- Towards On-Device Personalization: Cloud-device Collaborative Data Augmentation for Efficient On-device Language Model [43.13807038270687]
CDCDA-PLMは、強力なクラウドベースのLLMのサポートにより、デバイス上でパーソナライズされた言語モデルをユーザデバイスにデプロイするためのフレームワークである。
実データと合成データの両方を用いて、パーソナライズされたオンデバイス言語モデル(LM)は、パラメータ効率の細かいチューニング(PEFT)モジュールを介して微調整される。
論文 参考訳(メタデータ) (2025-08-29T02:33:13Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - A Novel Hat-Shaped Device-Cloud Collaborative Inference Framework for Large Language Models [12.644230479753476]
従来のクラウドベースの大規模言語モデル(LLM)は、高精度な要件を満たすが、低遅延とプライバシー強化に対する重要な要求には欠ける。
我々は,U字型推論と投機的復号化の相補的長所を生かした,新しいデバイス-クラウド協調型推論フレームワークであるHATを提案する。
HATは,TTFTを41%,TBTを41%,TBTを77%削減し,有望な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-03-23T10:54:58Z) - Are We There Yet? A Measurement Study of Efficiency for LLM Applications on Mobile Devices [5.926813659185372]
小型の大規模言語モデル(LLM)は、大きなモデルに比べて品質に制限があるにもかかわらず、強力なモバイルデバイス上で正常に動作することができる。
小型のLDMだけが強力なモバイルデバイス上で正常に動作するが、大型のモデルに比べて品質に制限がある。
論文 参考訳(メタデータ) (2025-03-10T16:27:17Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。
LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。
本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。
私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文 参考訳(メタデータ) (2021-08-30T08:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。