論文の概要: Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing
- arxiv url: http://arxiv.org/abs/2511.04002v1
- Date: Thu, 06 Nov 2025 02:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.283278
- Title: Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing
- Title(参考訳): 適応スプリットコンピューティングによる大規模言語モデルのメモリ・レイテンシ制約推論
- Authors: Mingyu Sung, Vikas Palakonda, Suhwan Im, Sunghwan Moon, Il-Min Kim, Sangseok Yun, Jae-Mo Kang,
- Abstract要約: 大規模言語モデル(LLM)は様々な推論タスクでほぼ人間に近い性能を達成した。
リソース制約のあるIoT(Internet-of-Things)デバイスへのデプロイメントは、大量のパラメータフットプリントとメモリ集約型の自己回帰デコーディングのため、依然として現実的ではない。
この研究は、エッジデバイスにLLMを配置するために明示的に設計された最初の自動回帰対応分割コンピューティングフレームワークを紹介した。
- 参考スコア(独自算出の注目度): 8.705453442427585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved near-human performance across diverse reasoning tasks, yet their deployment on resource-constrained Internet-of-Things (IoT) devices remains impractical due to massive parameter footprints and memory-intensive autoregressive decoding. While split computing offers a promising solution by partitioning model execution between edge devices and cloud servers, existing approaches fail to address the unique challenges of autoregressive inference, particularly the iterative token generation process and expanding key-value (KV) cache requirements. This work introduces the first autoregressive-aware split computing framework designed explicitly for LLM deployment on edge devices. Our approach makes three key contributions. First, we develop one-point split compression (OPSC), a mixed-precision quantization scheme that prevents out-of-memory failures by strategically partitioning models into front-end and back-end segments with different precision levels. Second, we propose a two-stage intermediate compression pipeline that combines threshold splitting (TS) and token-wise adaptive bit quantization (TAB-Q) to preserve accuracy-critical activations while dramatically reducing communication overhead. Third, we formulate a unified optimization framework that jointly selects optimal split points, quantization settings, and sequence lengths to satisfy strict memory and latency constraints. Extensive evaluations across diverse LLMs and hardware platforms demonstrate superior performance compared to state-of-the-art quantization methods, including SmoothQuant, OmniQuant, and Atom. The framework achieves a 1.49 inference speedup and significant communication overhead reduction while maintaining or improving model accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな推論タスクでほぼ人間に近いパフォーマンスを達成したが、リソース制約のあるIoT(Internet-of-Things)デバイスへのデプロイメントは、大量のパラメータフットプリントとメモリ集約型の自己回帰デコーディングのため、現実的ではない。
分割コンピューティングは、エッジデバイスとクラウドサーバ間でモデル実行を分割することで、有望なソリューションを提供するが、既存のアプローチでは、自動回帰推論、特に反復トークン生成プロセス、キー値(KV)キャッシュ要求の拡張といった、ユニークな課題に対処できない。
この研究は、エッジデバイスにLLMを配置するために明示的に設計された最初の自動回帰対応分割コンピューティングフレームワークを紹介した。
私たちのアプローチは3つの重要な貢献をします。
まず,異なる精度のフロントエンドセグメントとバックエンドセグメントにモデルを戦略的に分割することで,メモリ外障害を防止する混合精度量子化方式である1点分割圧縮(OPSC)を開発する。
次に、しきい値分割(TS)とトークンワイド適応ビット量子化(TAB-Q)を組み合わせた2段階中間圧縮パイプラインを提案する。
第3に、厳密なメモリと遅延制約を満たすために最適な分割点、量子化設定、シーケンス長を共同で選択する統一最適化フレームワークを定式化する。
多様なLLMとハードウェアプラットフォームにわたる広範な評価は、SmoothQuant、OmniQuant、Atomといった最先端の量子化手法よりも優れたパフォーマンスを示している。
このフレームワークは、モデルの精度を維持したり改善したりしながら、1.49の推論スピードアップと通信オーバーヘッドの大幅な削減を実現している。
関連論文リスト
- MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Efficient Zero-Order Federated Finetuning of Language Models for Resource-Constrained Devices [11.523328603690945]
エッジデバイス上での微調整大型言語モデル(LLM)は、高いメモリ、通信、計算要求のために依然として困難である。
ネットワークを2つのブロックに分割し,ブロック毎に異なる数の摂動を適用するフェデレート分割摂動ゼロオーダー最適化(FedSPZO)を提案する。
我々の評価では、フェデレート学習における技術技術のゼロオーダー状態と比較すると、計算オーバーヘッドの2.5~7倍の削減効果が示される。
論文 参考訳(メタデータ) (2025-02-14T15:49:02Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。