論文の概要: P/D-Device: Disaggregated Large Language Model between Cloud and Devices
- arxiv url: http://arxiv.org/abs/2508.09035v1
- Date: Tue, 12 Aug 2025 15:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.488867
- Title: P/D-Device: Disaggregated Large Language Model between Cloud and Devices
- Title(参考訳): P/Dデバイス: クラウドとデバイス間の分散大言語モデル
- Authors: Yibo Jin, Yixu Xu, Yue Chen, Chengbin Wang, Tao Wang, Jiaqi Huang, Rongfei Zhang, Yiming Dong, Yuting Yan, Ke Cheng, Yingjie Zhu, Shulan Wang, Qianqian Tang, Shuaishuai Meng, Guanxin Cheng, Ze Wang, Shuyan Miao, Ketao Wang, Wen Liu, Yifan Yang, Tong Zhang, Anran Wang, Chengzhou Lu, Tiantian Dong, Yongsheng Zhang, Zhe Wang, Hefei Guo, Hongjie Liu, Wei Lu, Zhengyong Zhang,
- Abstract要約: クラウドとデバイスの間で大きな言語モデルを分離することを提案する。
クラウドは、そのプリフィル段階でのみ、各デバイスのためのコンテンツの一部を支援する。
実トレース実験により、TTFTは少なくとも60%減少し、最大TPOTは約10ミリ秒、クラウドスループットは最大15倍向上した。
- 参考スコア(独自算出の注目度): 35.867380358049175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving disaggregated large language models has been widely adopted in industrial practice for enhanced performance. However, too many tokens generated in decoding phase, i.e., occupying the resources for a long time, essentially hamper the cloud from achieving a higher throughput. Meanwhile, due to limited on-device resources, the time to first token (TTFT), i.e., the latency of prefill phase, increases dramatically with the growth on prompt length. In order to concur with such a bottleneck on resources, i.e., long occupation in cloud and limited on-device computing capacity, we propose to separate large language model between cloud and devices. That is, the cloud helps a portion of the content for each device, only in its prefill phase. Specifically, after receiving the first token from the cloud, decoupling with its own prefill, the device responds to the user immediately for a lower TTFT. Then, the following tokens from cloud are presented via a speed controller for smoothed TPOT (the time per output token), until the device catches up with the progress. On-device prefill is then amortized using received tokens while the resource usage in cloud is controlled. Moreover, during cloud prefill, the prompt can be refined, using those intermediate data already generated, to further speed up on-device inference. We implement such a scheme P/D-Device, and confirm its superiority over other alternatives. We further propose an algorithm to decide the best settings. Real-trace experiments show that TTFT decreases at least 60%, maximum TPOT is about tens of milliseconds, and cloud throughput increases by up to 15x.
- Abstract(参考訳): 解体された大規模言語モデルは、産業的実践において、性能向上のために広く採用されている。
しかし、デコードフェーズで生成されるトークンが多すぎる、すなわち長い時間リソースを占有し、本質的にクラウドが高いスループットを達成するのを妨げている。
一方、デバイス上のリソースが限られているため、最初のトークン(TTFT)、すなわちプリフィルフェーズのレイテンシは、即時長の増大とともに劇的に増加する。
このようなリソースのボトルネック、すなわちクラウドにおける長期の占有とデバイス上での計算能力の制限に対処するため、クラウドとデバイスの間で大きな言語モデルを分離することを提案する。
つまりクラウドは、そのプリフィルの段階でのみ、各デバイスのためのコンテンツの一部を支援する。
具体的には、クラウドから最初のトークンを受け取り、独自のプリフィルと疎結合した後、デバイスは、低いTTFTに対して即座に応答する。
次に、クラウドからの次のトークンは、スムーズなTPOT(出力トークン毎の時間)のためのスピードコントローラを介して提示され、デバイスが進捗に追いつく。
オンデバイスプリフィルは、クラウドでのリソース使用が制御されている間、受信トークンを使用して償却される。
さらに、クラウドプリフィルの間、これらの中間データを使用してプロンプトを洗練し、デバイス上の推論をさらに高速化することができる。
このようなスキームをP/Dデバイスで実装し、他の選択肢よりも優れていることを確認する。
さらに,最適な設定を決定するアルゴリズムを提案する。
実トレース実験により、TTFTは少なくとも60%減少し、最大TPOTは約10ミリ秒、クラウドスループットは最大15倍向上した。
関連論文リスト
- Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits [11.398891065175686]
大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。
LLMはデバイス上でデプロイ可能で、レイテンシを低減し、プライバシを改善したコスト効率の高いソリューションを提供する。
本稿では,サーバ上での大きなターゲットモデルとデバイス上での小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:55:16Z) - A Novel Hat-Shaped Device-Cloud Collaborative Inference Framework for Large Language Models [12.644230479753476]
従来のクラウドベースの大規模言語モデル(LLM)は、高精度な要件を満たすが、低遅延とプライバシー強化に対する重要な要求には欠ける。
我々は,U字型推論と投機的復号化の相補的長所を生かした,新しいデバイス-クラウド協調型推論フレームワークであるHATを提案する。
HATは,TTFTを41%,TBTを41%,TBTを77%削減し,有望な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-03-23T10:54:58Z) - Managing Bandwidth: The Key to Cloud-Assisted Autonomous Driving [73.55745551827229]
自動運転車のようなリアルタイム制御システムにクラウドを頼らなければならない、と私たちは主張する。
時間に敏感な計算と遅延クリティカルな計算の一部をクラウドにオフロードする機会を特定します。
論文 参考訳(メタデータ) (2024-10-21T17:32:36Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Speech Understanding on Tiny Devices with A Learning Cache [2.7186799067647334]
SpeechCache(SC)は、小さなデバイス向けの音声キャッシュである。
我々は市販のSTM32マイクロコントローラにSCを実装した。
当社のシステムは,デバイス上での入力の45%-90%を解決し,一般的なクラウド音声認識サービスへのオフロードと比較して,平均遅延を最大80%削減する。
論文 参考訳(メタデータ) (2023-11-30T02:15:07Z) - Mobile-Cloud Inference for Collaborative Intelligence [3.04585143845864]
ディープラーニングモデル推論の高速化と省エネの必要性が高まっている。
歴史的に、モバイルデバイス上で実行されるモデルは、クラウド上でしか実行できない大規模な最先端の研究モデルと比較して、小さく、よりシンプルである。
クラウドのみの推論では、ネットワーク帯域幅の消費の増加やレイテンシの向上といった欠点がある。
別のアプローチとして、共有モバイルクラウド推論がある。
論文 参考訳(メタデータ) (2023-06-24T14:22:53Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - Shared Mobile-Cloud Inference for Collaborative Intelligence [35.103437828235826]
ニューラルモデル推論のための共有モバイルクラウド推論手法を提案する。
この戦略は、推論レイテンシ、エネルギー消費、ネットワーク帯域使用量を改善することができる。
伝送前に特徴テンソルを圧縮することにより、さらなる性能向上を実現することができる。
論文 参考訳(メタデータ) (2020-02-01T07:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。