論文の概要: Collaborative Large Language Model Inference via Resource-Aware Parallel Speculative Decoding
- arxiv url: http://arxiv.org/abs/2511.01695v2
- Date: Tue, 04 Nov 2025 02:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.318047
- Title: Collaborative Large Language Model Inference via Resource-Aware Parallel Speculative Decoding
- Title(参考訳): リソースを考慮した並列投機的デコードによる協調的大言語モデル推論
- Authors: Jungyeon Koh, Hyun Jong Yang,
- Abstract要約: 投機的復号化は、モバイルデバイスの軽量ドラフトモデルとエッジサーバの強力なターゲットモデルとの間にトークン生成を分割することで、有望なソリューションを提供する。
本稿では,効率的な並列投機的復号化を支援するために,ユーザアソシエーションとリソースアロケーションを協調的に最適化する統合フレームワークを初めて提案する。
その結果,提案手法は推定精度を損なうことなく,最大28.0%,平均23.7%のレイテンシ削減を実現していることがわかった。
- 参考スコア(独自算出の注目度): 6.130486652666936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for on-device large language model (LLM) inference highlights the need for efficient mobile edge computing (MEC) solutions, especially in resource-constrained settings. Speculative decoding offers a promising solution by partitioning token generation between a lightweight draft model on mobile devices and a powerful target model on edge servers, but suffers from communication overhead and asynchronous delays. This paper is the first to propose a unified framework that jointly optimizes user association and resource allocation (UARA) to support efficient parallel speculative decoding. We solve the UARA problem using a multi-agent deep reinforcement learning algorithm. To evaluate our approach under realistic conditions, we conduct experiments using the Sionna simulator. Results show that our method achieves up to 28.0% and an average of 23.7% reduction in end-to-end latency without compromising inference accuracy, enabling scalable and low-latency LLM services in MEC systems.
- Abstract(参考訳): デバイス上での大規模言語モデル(LLM)推論の需要の増加は、特にリソース制約のある環境では、効率的なモバイルエッジコンピューティング(MEC)ソリューションの必要性を浮き彫りにしている。
投機的復号化は、モバイルデバイス上の軽量ドラフトモデルとエッジサーバ上の強力なターゲットモデルとの間にトークン生成を分割することで、有望なソリューションを提供するが、通信オーバーヘッドと非同期遅延に悩まされている。
本稿では,ユーザアソシエーションとリソースアロケーション(UARA)を協調的に最適化し,効率的な並列投機復号を支援する統一フレームワークを提案する。
マルチエージェント深部強化学習アルゴリズムを用いて,UARA問題を解く。
現実的な条件下でのアプローチを評価するため,シオンナシミュレータを用いた実験を行った。
その結果,提案手法は予測精度を損なうことなく,最大28.0%,平均23.7%のレイテンシ削減を実現し,MECシステムにおけるスケーラブルで低レイテンシなLLMサービスを実現できることがわかった。
関連論文リスト
- Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Split Learning in Computer Vision for Semantic Segmentation Delay Minimization [25.0679083637967]
分割学習(SL)を用いたセマンティックセグメンテーションにおける推論遅延を最小化する新しい手法を提案する。
SLはリソース制約のあるデバイスのためのリアルタイムコンピュータビジョン(CV)アプリケーションのニーズに合わせて調整されている。
論文 参考訳(メタデータ) (2024-12-18T19:07:25Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。
LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。
本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated
Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。
ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文 参考訳(メタデータ) (2022-09-02T10:29:56Z) - Communication-Computation Efficient Device-Edge Co-Inference via AutoML [4.06604174802643]
デバイスエッジのコ推論は、リソース制約のあるモバイルデバイスとエッジサーバの間のディープニューラルネットワークを分割する。
オンデバイスモデルスパーシリティレベルと中間特徴圧縮比は、ワークロードと通信オーバーヘッドに直接的な影響を与える。
深部強化学習(DRL)に基づく新しい自動機械学習(AutoML)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。