論文の概要: ConfigSpec: Profiling-Based Configuration Selection for Distributed Edge--Cloud Speculative LLM Serving
- arxiv url: http://arxiv.org/abs/2604.09722v1
- Date: Wed, 08 Apr 2026 21:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.629713
- Title: ConfigSpec: Profiling-Based Configuration Selection for Distributed Edge--Cloud Speculative LLM Serving
- Title(参考訳): ConfigSpec: 分散エッジのためのプロファイリングに基づく構成選択-クラウド投機LDMサービング
- Authors: Xiangchen Li, Saeid Ghafouri, Jiakun Fan, Babar Ali, Hans Vandierendonck, Dimitrios S. Nikolopoulos,
- Abstract要約: 投機的復号化により、クラウドとエッジをまたいだ協調的なLarge Language Model (LLM)推論が可能になる。
本稿では,分散投機LSMサービスのための構成選択フレームワークであるConfigSpecを提案する。
- 参考スコア(独自算出の注目度): 5.390941065727373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding enables collaborative Large Language Model (LLM) inference across cloud and edge by separating lightweight token drafting from heavyweight verification. While prior systems show performance and cost benefits, practical deployment requires navigating a large configuration space spanning draft model variants, quantisation levels, speculative lengths, and heterogeneous edge devices. This paper presents ConfigSpec, a configurationselection framework for distributed speculative LLM serving. ConfigSpec profiles edge devices and draft-target alignment, and models drafting throughput, acceptance rate, and power to evaluate goodput, verification cost efficiency, and energy efficiency across the joint configuration space. Our analysis across three edge platforms and two LLM families reveals structurally conflicting optima. Firstly, goodput is maximised by the smallest, fastest draft model at device-dependent speculative lengths (K*=2-10). Secondly, both cost and energy efficiency converge to K=2 due to a dominant bonus-token effect-with cost favouring the largest drafter for its high acceptance rate and energy favouring the smallest for its low power draw. These conflicts confirm that no single fixed configuration can simultaneously optimise all objectives, underscoring the need for profiling-based configuration selection in disaggregated edge-cloud LLM inference.
- Abstract(参考訳): 投機的復号化は、軽量トークンのドラフトと重み検証を分離することにより、クラウドとエッジをまたいだ協調的なLarge Language Model(LLM)推論を可能にする。
以前のシステムは性能とコストの利点を示しているが、実際のデプロイメントでは、ドラフトモデルの変種、定量化レベル、投機長、異種エッジデバイスにまたがる大きな設定スペースをナビゲートする必要がある。
本稿では,分散投機LSMサービスのための構成選択フレームワークであるConfigSpecを提案する。
ConfigSpecはエッジデバイスとドラフトターゲットアライメントをプロファイルし、出力、検証コスト効率、および共同構成空間全体のエネルギー効率を評価するためのスループット、受け入れ率、パワーをモデル化する。
3つのエッジプラットフォームと2つのLLMファミリーで解析した結果、構造的に矛盾するオプティマが明らかとなった。
第一に、デバイス依存投機長(K*=2-10)における最小かつ最速のドラフトモデルによって、優れた出力が最大化される。
第二に、コストとエネルギー効率は、優越的なボーナストケ効果によりK=2に収束する。
これらの矛盾は、一つの固定された構成がすべての目的を同時に最適化できないことを確認し、分散エッジクラウドLLM推論におけるプロファイリングベースの構成選択の必要性を強調している。
関連論文リスト
- Empirical Recipes for Efficient and Compact Vision-Language Models [54.92440500651415]
リソース制約のある設定における視覚言語モデル(VLM)は低レイテンシと高スループットを必要とする。
実験的なエンドツーエンドの効率分析と系統的なプロファイル推論を行い、主要なボトルネックを特定します。
精度を保ちながらレイテンシを大幅に低減する,コンパクトなVLMに適した最適化レシピを開発した。
論文 参考訳(メタデータ) (2026-03-17T17:17:40Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.69991252191073]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。
Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文 参考訳(メタデータ) (2025-06-11T04:55:54Z) - EdgeProfiler: A Fast Profiling Framework for Lightweight LLMs on Edge Using Analytical Model [0.3359875577705537]
本稿では,エッジシステム上での軽量大言語モデル(LLM)を評価するためのフレームワークであるEdgeProfilerを紹介する。
このフレームワークはTinyLLaMA、Gemma3.1B、Llama3.2-1B、DeepSeek-r1-1.5BなどのコンパクトなLCMをプロファイルしている。
プロファイリングにより,4ビット量子化によりモデルメモリ使用量を約60~70%削減し,精度は2~5%に抑えられた。
論文 参考訳(メタデータ) (2025-06-06T01:56:07Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。