論文の概要: Why Should the Server Do It All?: A Scalable, Versatile, and Model-Agnostic Framework for Server-Light DNN Inference over Massively Distributed Clients via Training-Free Intermediate Feature Compression
- arxiv url: http://arxiv.org/abs/2511.11608v1
- Date: Mon, 03 Nov 2025 08:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.288087
- Title: Why Should the Server Do It All?: A Scalable, Versatile, and Model-Agnostic Framework for Server-Light DNN Inference over Massively Distributed Clients via Training-Free Intermediate Feature Compression
- Title(参考訳): なぜサーバがすべてするべきなのか: トレーニング不要の中間機能圧縮を通じて、大規模分散クライアント上でのサーバーライトDNN推論のためのスケーラブルでVersatile、Model-Agnosticフレームワーク
- Authors: Mingyu Sung, Suhwan Im, Daeho Bang, Il-Min Kim, Sangseok Yun, Jae-Mo Kang,
- Abstract要約: スプリットコンピューティングにおける通信負荷とサーバ負荷の両方を削減するためにIFを圧縮する、リトレーニングフリーでアーキテクチャに依存しないフレームワークであるSLICERを紹介した。
標準的なビジョンとLLMワークロード全体にわたって、SLICERはアップリンクボリュームを最大10倍、サーバGPU時間を最大4.4倍削減する。
- 参考スコア(独自算出の注目度): 6.932768187544348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern DNNs often rely on edge-cloud model partitioning (MP), but widely used schemes fix shallow, static split points that underutilize edge compute and concentrate latency and energy on the server. The problem is exacerbated in autoregressive (AR) LLM inference, where per-token forward passes repeatedly generate bulky intermediate features (IFs). We introduce SLICER, a retraining-free, architecture-agnostic framework that compresses IFs to reduce both communication and server load in split computing. SLICER combines (i) asymmetric top-K filtering (ATKF) to sparsify low-magnitude activations, (ii) magnitude-splitting (MS) to group the remaining non-zeros into equal-cardinality blocks, and (iii) adaptive bit quantization (ABQ) that selects per-block bitwidths under a distortion budget. Across standard vision and LLM workloads (e.g., ImageNet/COCO; HellaSwag, PIQA, ARC-E/C, GSM8K, HumanEval), SLICER reduces uplink volume by up to 10x and server GPU time by up to 4.4x, while keeping task quality within ~0-3 pp of baseline. In multi-device settings and AR LLMs, SLICER scales by shifting meaningful compute to the edge and lowering bits-per-token and server time per token, stabilizing per-step traffic. The codec attaches to off-the-shelf models without retraining or architectural changes, offering a plug-and-play path to scalable, low-latency distributed inference. Code is provided in the supplementary material.
- Abstract(参考訳): 現代のDNNは、しばしばエッジクラウドモデルパーティショニング(MP)に依存しているが、広く使われているスキームは、エッジ計算を未利用にし、サーバ上のレイテンシとエネルギに集中する、浅い静的スプリットポイントを固定する。
この問題は自己回帰(AR)LLM推論においてさらに悪化し、各前方通過が重み付き中間特徴(IF)を繰り返し生成する。
スプリットコンピューティングにおける通信負荷とサーバ負荷の両方を削減するためにIFを圧縮する、リトレーニングフリーでアーキテクチャに依存しないフレームワークであるSLICERを紹介した。
スライカーコンバイン
(i)非対称トップKフィルタリング(ATKF)により、低マグニチュードアクティベーションを分散させる。
(ii) 残りの非ゼロを等心ブロックに分類する等大分割法(MS)
三 歪み予算の下でブロックごとのビット幅を選択する適応ビット量子化(ABQ)。
標準的なビジョンとLCMワークロード(例えば、ImageNet/COCO、HellaSwag、PIQA、ARC-E/C、GSM8K、HumanEval)にわたって、SLICERは、アップリンクボリュームを最大10倍、サーバGPU時間を最大4.4倍削減し、タスク品質をベースラインの約0-3ppに維持する。
マルチデバイス設定とAR LLMでは、意味のある計算をエッジにシフトし、トークン当たりのビット数とサーバ時間を削減し、ステップ単位のトラフィックを安定化することでスケールする。
コーデックは、再トレーニングやアーキテクチャの変更なしにオフザシェルフモデルにアタッチされ、スケーラブルで低レイテンシな分散推論へのプラグアンドプレイパスを提供する。
コードは補足材料で提供される。
関連論文リスト
- Range Asymmetric Numeral Systems-Based Lightweight Intermediate Feature Compression for Split Computing of Deep Neural Networks [5.186026342830856]
Splitコンピューティングは、リソース制約のあるエッジデバイスとクラウドサーバの間で、ディープニューラルネットワーク推論を分散する。
本研究では、非対称整数量子化とスパーステンソル表現を併用したレンジ非対称数値システム(rANS)の符号化を利用して、伝送オーバーヘッドを劇的に低減する新しい軽量圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T12:33:59Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - FrankenSplit: Efficient Neural Feature Compression with Shallow Variational Bottleneck Injection for Mobile Edge Computing [5.815300670677979]
資源依存型圧縮モデルのための新しいフレームワークを導入し,非対称環境下での手法を広範囲に評価する。
提案手法は精度を低下させることなく最先端のSC法よりも60%低く,既存の標準のオフロードよりも16倍高速である。
論文 参考訳(メタデータ) (2023-02-21T14:03:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。