論文の概要: Accelerating Local LLMs on Resource-Constrained Edge Devices via Distributed Prompt Caching
- arxiv url: http://arxiv.org/abs/2602.22812v1
- Date: Thu, 26 Feb 2026 09:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.631505
- Title: Accelerating Local LLMs on Resource-Constrained Edge Devices via Distributed Prompt Caching
- Title(参考訳): 分散プロンプトキャッシングによる資源制約エッジデバイスにおけるローカルLCMの高速化
- Authors: Hiroki Matsutani, Naoki Matsuda, Naoto Sugiura,
- Abstract要約: リソース制約のあるエッジデバイス上でのローカルLSM推論は、重大なパフォーマンスボトルネックを課す。
本稿では,複数のローエンドエッジデバイス間で中間処理状態を協調的に共有することにより,推論性能を向上させる分散プロンプトキャッシングを提案する。
- 参考スコア(独自算出の注目度): 1.0832844764942349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since local LLM inference on resource-constrained edge devices imposes a severe performance bottleneck, this paper proposes distributed prompt caching to enhance inference performance by cooperatively sharing intermediate processing states across multiple low-end edge devices. To fully utilize prompt similarity, our distributed caching mechanism also supports partial matching. As this approach introduces communication overhead associated with state sharing over a wireless network, we introduce a Bloom-filter-based data structure, referred to as a catalog, to determine whether a remote server possesses the desired internal states, thereby suppressing unnecessary communication. Experiments using the Gemma-3 270M model and the MMLU dataset on the Raspberry Pi Zero 2W platform demonstrate that the proposed approach reduces TTFT (Time to First Token) and TTLT (Time to Last Token) by 93.12% and 50.07% on average, respectively.
- Abstract(参考訳): 資源制約エッジデバイス上でのローカルLSM推論は、深刻な性能ボトルネックを負うため、複数のローエンドエッジデバイス間で中間処理状態を協調的に共有することにより、分散プロンプトキャッシングによる推論性能の向上を提案する。
高速な類似性を十分に活用するために、分散キャッシュ機構は部分マッチングもサポートしています。
本手法では,無線ネットワーク上での状態共有に関連する通信オーバヘッドを導入し,カタログと呼ばれるブルームフィルタに基づくデータ構造を導入し,リモートサーバが所望の内部状態を持っているかどうかを判断し,不要な通信を抑える。
Gemma-3 270MモデルとRaspberry Pi Zero 2Wプラットフォーム上のMMLUデータセットを用いた実験では、提案手法がTTFT(Time to First Token)とTTLT(Time to Last Token)を平均93.12%、そして50.07%削減することを示した。
関連論文リスト
- Wireless Federated Multi-Task LLM Fine-Tuning via Sparse-and-Orthogonal LoRA [61.12136997430116]
低ランク適応(LoRA)に基づく分散連合学習(DFL)により、マルチタスクデータセットを持つモバイルデバイスは、ローカルに更新されたパラメータを、無線接続を介して近隣デバイスのサブセットと交換することで、大きな言語モデル(LLM)を協調的に微調整することができる。
不均一データセットに微調整されたパラメータを直接集約すると、DFLライフサイクルの3つの主要な問題が発生する: (i) 微調整プロセス中に忘れる破滅的な知識、(ii) データの異種性に起因する更新方向の矛盾に起因する。
論文 参考訳(メタデータ) (2026-02-24T02:45:32Z) - HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - Staggered Batch Scheduling: Co-optimizing Time-to-First-Token and Throughput for High-Efficiency LLM Inference [17.27010833526918]
Staggered Batch Scheduling (SBS)はリクエストをバッファして最適な実行バッチを生成する。
Load-Aware Global Allocation戦略は、PrefillとDecodeの両フェーズでDPユニット間で計算負荷のバランスをとる。
我々のシステムはTTFTを30%-40%削減し、最先端の即時スケジューリングベースラインに比べてスループットを15%-20%向上させる。
論文 参考訳(メタデータ) (2025-12-18T03:45:05Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Efficient Multi-stage Inference on Tabular Data [1.6371451481715193]
従来型の知恵は、MLコードをRPC API経由で製品コードによってクエリされるサービスに分離することを好む。
推論アルゴリズムを単純化し、それらを製品コードに組み込んでネットワーク通信を減らします。
トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論遅延を1.3倍、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を約50%削減します。
論文 参考訳(メタデータ) (2023-03-21T04:01:55Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。