論文の概要: A Novel Hat-Shaped Device-Cloud Collaborative Inference Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2503.18989v1
- Date: Sun, 23 Mar 2025 10:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:37.048554
- Title: A Novel Hat-Shaped Device-Cloud Collaborative Inference Framework for Large Language Models
- Title(参考訳): 大規模言語モデルのための新しいハット型デバイスクラウド協調推論フレームワーク
- Authors: Zuan Xie, Yang Xu, Hongli Xu, Yunming Liao, Zhiwei Yao,
- Abstract要約: 従来のクラウドベースの大規模言語モデル(LLM)は、高精度な要件を満たすが、低遅延とプライバシー強化に対する重要な要求には欠ける。
我々は,U字型推論と投機的復号化の相補的長所を生かした,新しいデバイス-クラウド協調型推論フレームワークであるHATを提案する。
HATは,TTFTを41%,TBTを41%,TBTを77%削減し,有望な性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 12.644230479753476
- License:
- Abstract: Recent advancements in large language models (LLMs) have catalyzed a substantial surge in demand for LLM services. While traditional cloud-based LLM services satisfy high-accuracy requirements, they fall short in meeting critical demands for low delay and enhanced privacy. To address these limitations, we propose HAT, a novel device-cloud collaborative inference framework that leverages the complementary strengths of U-shaped inference and speculative decoding. HAT partitions the LLM into three submodels, and the input and output submodels, stacked with a lightweight adapter network, are deployed as a small language model (SLM) on each end device. Meanwhile, the middle submodel, encompassing the majority of the LLM's decoder layers, is hosted in the cloud to perform speculative decoding with on-device SLMs. During inference, HAT exchanges hidden states (rather than raw tokens) of input or draft tokens between devices and the cloud, thereby incurring substantial communication delays. Besides, processing hidden states of long prompts will exacerbate computation delays in the cloud, further compromising inference efficiency. To improve efficiency, we introduce a prompt chunking mechanism that segments long prompts into shorter chunks, enabling parallel transmission and processing. Furthermore, HAT is implemented to dynamically determine optimal chunk sizes for devices handling long prompts, thereby improving overall inference speed. Extensive experiments are conducted on a physical testbed comprising 30 NVIDIA Jetson devices and a server with 8 NVIDIA A6000 GPUs. Experimental results demonstrate that HAT achieves promising performance improvements, reducing TTFT by 41% to 54% and TBT by 41% to 77% compared to the baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、LLMサービスの需要が大幅に急増した。
従来のクラウドベースのLLMサービスは高い正確性要件を満たすが、低遅延とプライバシー強化に対する重要な要求を満たすには不十分である。
これらの制約に対処するために,U字型推論と投機的復号化の相補的長所を生かした,新しいデバイス-クラウド協調推論フレームワークであるHATを提案する。
HATはLSMを3つのサブモデルに分割し、入力と出力のサブモデルに軽量アダプタネットワークを積み重ね、各エンドデバイスに小さな言語モデル(SLM)として配置する。
一方、LLMのデコーダ層の大部分を含むミドルサブモデルは、オンデバイスSLMで投機的デコーダを実行するためにクラウドにホストされている。
推論中、HATはデバイスとクラウド間で入力またはドラフトトークンの隠れ状態(生のトークンではなく)を交換する。
さらに、長いプロンプトの隠された状態を処理することで、クラウドの計算遅延が悪化し、推論効率がさらに向上する。
効率を向上させるために、長いプロンプトを短いチャンクに分割し、並列伝送と処理を可能にするプロンプトチャンク機構を導入する。
さらに、HATは、長いプロンプトを扱うデバイスに対して最適なチャンクサイズを動的に決定できるように実装され、全体的な推論速度が向上する。
30台のNVIDIA Jetsonデバイスと8台のNVIDIA A6000 GPUを搭載したサーバからなる物理テストベッド上で、大規模な実験が行われた。
実験結果から,HATは高い性能向上を実現し,TTFTを41%,54%,TBTを41%,77%削減した。
関連論文リスト
- Efficient Deployment of Large Language Models on Resource-constrained Devices [12.644230479753476]
様々な下流タスクのために、リソース制約されたデバイス上でLLM(Large Language Models)を微調整する必要がある。
FedSpineは、PEFT(Efficient Fine-Tuning)と構造化プルーニングを組み合わせたフレームワークで、リソース制約のあるデバイスにLLMを効率的にデプロイする。
我々はFedSpineが1.4Times$$$timesで微調整を高速化し、最終的な精度を他のベースラインと比べて同じ間隔で0.4%-4.5%向上できることを示した。
論文 参考訳(メタデータ) (2025-01-05T04:38:11Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - WDMoE: Wireless Distributed Large Language Models with Mixture of Experts [65.57581050707738]
我々は,Mixture of Experts (MoE)に基づく無線分散大言語モデル(LLM)パラダイムを提案する。
我々は,基地局(BS)とモバイルデバイスにゲーティングネットワークと先行するニューラルネットワーク層を配置することにより,LLM内のMoE層を分解する。
我々は、モデルの性能とエンドツーエンドのレイテンシの両方を考慮して、専門家の選択ポリシーを設計する。
論文 参考訳(メタデータ) (2024-05-06T02:55:50Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。