論文の概要: Range Asymmetric Numeral Systems-Based Lightweight Intermediate Feature Compression for Split Computing of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2511.11664v1
- Date: Tue, 11 Nov 2025 12:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.809518
- Title: Range Asymmetric Numeral Systems-Based Lightweight Intermediate Feature Compression for Split Computing of Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークのスプリットコンピューティングのためのレンジ非対称数値システムに基づく軽量中間特徴圧縮
- Authors: Mingyu Sung, Suhwan Im, Vikas Palakonda, Jae-Mo Kang,
- Abstract要約: Splitコンピューティングは、リソース制約のあるエッジデバイスとクラウドサーバの間で、ディープニューラルネットワーク推論を分散する。
本研究では、非対称整数量子化とスパーステンソル表現を併用したレンジ非対称数値システム(rANS)の符号化を利用して、伝送オーバーヘッドを劇的に低減する新しい軽量圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.186026342830856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Split computing distributes deep neural network inference between resource-constrained edge devices and cloud servers but faces significant communication bottlenecks when transmitting intermediate features. To this end, in this paper, we propose a novel lightweight compression framework that leverages Range Asymmetric Numeral Systems (rANS) encoding with asymmetric integer quantization and sparse tensor representation to reduce transmission overhead dramatically. Specifically, our approach combines asymmetric integer quantization with a sparse representation technique, eliminating the need for complex probability modeling or network modifications. The key contributions include: (1) a distribution-agnostic compression pipeline that exploits inherent tensor sparsity to achieve bandwidth reduction with minimal computational overhead; (2) an approximate theoretical model that optimizes tensor reshaping dimensions to maximize compression efficiency; and (3) a GPU-accelerated implementation with sub-millisecond encoding/decoding latency. Extensive evaluations across diverse neural architectures (ResNet, VGG16, MobileNetV2, SwinT, DenseNet121, EfficientNetB0) demonstrate that the proposed framework consistently maintains near-baseline accuracy across CIFAR100 and ImageNet benchmarks. Moreover, we validated the framework's effectiveness on advanced natural language processing tasks by employing Llama2 7B and 13B on standard benchmarks such as MMLU, HellaSwag, ARC, PIQA, Winogrande, BoolQ, and OpenBookQA, demonstrating its broad applicability beyond computer vision. Furthermore, this method addresses a fundamental bottleneck in deploying sophisticated artificial intelligence systems in bandwidth-constrained environments without compromising model performance.
- Abstract(参考訳): Splitコンピューティングは、リソース制約のあるエッジデバイスとクラウドサーバ間でのディープニューラルネットワーク推論を分散するが、中間機能を送信する際には、重要な通信ボトルネックに直面している。
そこで本稿では,非対称整数量子化とスパーステンソル表現で符号化されたレンジ非対称数値システム(rANS)を利用して,伝送オーバヘッドを劇的に低減する,新しい軽量圧縮フレームワークを提案する。
具体的には、非対称整数量子化とスパース表現技術を組み合わせることで、複雑な確率モデリングやネットワーク修正の必要性を解消する。
主な貢献は,(1)計算オーバーヘッドを最小限に抑えた帯域幅削減を実現するために固有のテンソル幅を利用する分散非依存圧縮パイプライン,(2)圧縮効率を最大化するためにテンソル形状を最適化する近似理論的モデル,(3)サブミリ秒符号化/復号レイテンシを備えたGPU高速化実装である。
さまざまなニューラルネットワーク(ResNet、VGG16、MobileNetV2、SwinT、DenseNet121、EfficientNetB0)にわたる広範な評価は、提案されたフレームワークがCIFAR100とImageNetベンチマークでほぼベースラインの精度を一貫して維持していることを示している。
さらに,MMLU,HellaSwag,ARC,PIQA,Winogrande,BoolQ,OpenBookQAなどの標準ベンチマークにLlama2 7B,13Bを用いて,高度な自然言語処理タスクにおけるフレームワークの有効性を検証する。
さらに, この手法は, 高度な人工知能システムを, モデル性能を損なうことなく, 帯域制限された環境に展開する際の根本的なボトルネックに対処する。
関連論文リスト
- Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。
本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。
この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文 参考訳(メタデータ) (2025-05-24T15:52:49Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Physics-Inspired Binary Neural Networks: Interpretable Compression with Theoretical Guarantees [20.854288216118423]
多くの逆問題では、自然に物理と空間を符号化するアルゴリズムアンロールネットワークが認められている。
本研究では,データ駆動型1ビット量子化と単一グローバルスケールを組み合わせたPhysical-Inspired Binary Neural Network (PIBiNN)を提案する。
この設計は、構造零点を利用することにより、重量あたり1ビット未満の圧縮率をもたらす。
論文 参考訳(メタデータ) (2025-02-04T00:53:10Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。