論文の概要: QPART: Adaptive Model Quantization and Dynamic Workload Balancing for Accuracy-aware Edge Inference
- arxiv url: http://arxiv.org/abs/2506.23934v1
- Date: Mon, 30 Jun 2025 15:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.115827
- Title: QPART: Adaptive Model Quantization and Dynamic Workload Balancing for Accuracy-aware Edge Inference
- Title(参考訳): QPART: 高精度エッジ推論のための適応モデル量子化と動的ワークロードバランシング
- Authors: Xiangchen Li, Saeid Ghafouri, Bo Ji, Hans Vandierendonck, Deepu John, Dimitrios S. Nikolopoulos,
- Abstract要約: 要求固有のモデルによる推論パターンをデバイスの計算能力に合わせて計画することは、多様なシナリオに対してよりコスト効率が高く、堅牢である、と我々は主張する。
本稿では,共同モデル量子化と推論分割を統合した,精度の高いワークロードバランス推論システムを提案する。
シミュレーションの結果、全体の時間と消費電力が大幅に減少し、ペイロードは80%以上減少し、精度は1%以下に抑えられた。
- 参考スコア(独自算出の注目度): 10.55165549089585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning inferences increasingly move to edge devices, adapting to diverse computational capabilities, hardware, and memory constraints becomes more critical. Instead of relying on a pre-trained model fixed for all future inference queries across diverse edge devices, we argue that planning an inference pattern with a request-specific model tailored to the device's computational capacity, accuracy requirements, and time constraints is more cost-efficient and robust to diverse scenarios. To this end, we propose an accuracy-aware and workload-balanced inference system that integrates joint model quantization and inference partitioning. In this approach, the server dynamically responds to inference queries by sending a quantized model and adaptively sharing the inference workload with the device. Meanwhile, the device's computational power, channel capacity, and accuracy requirements are considered when deciding. Furthermore, we introduce a new optimization framework for the inference system, incorporating joint model quantization and partitioning. Our approach optimizes layer-wise quantization bit width and partition points to minimize time consumption and cost while accounting for varying accuracy requirements of tasks through an accuracy degradation metric in our optimization model. To our knowledge, this work represents the first exploration of optimizing quantization layer-wise bit-width in the inference serving system, by introducing theoretical measurement of accuracy degradation. Simulation results demonstrate a substantial reduction in overall time and power consumption, with computation payloads decreasing by over 80% and accuracy degradation kept below 1%.
- Abstract(参考訳): 機械学習の推論がますますエッジデバイスに移行するにつれて、多様な計算能力、ハードウェア、メモリの制約に適応することがますます重要になる。
さまざまなエッジデバイスにまたがる将来の推論クエリに対して、事前トレーニングされたモデルに依存するのではなく、デバイスの計算能力、精度要件、時間制約に合わせて、要求固有のモデルで推論パターンを計画することは、多様なシナリオに対してコスト効率が高く、堅牢である、と我々は主張する。
そこで本研究では,共同モデル量子化と推論分割を統合した,精度の高いワークロードバランス推論システムを提案する。
このアプローチでは、サーバは量子化されたモデルを送信し、推論のワークロードをデバイスと適応的に共有することで、推論クエリに動的に応答する。
一方、その装置の計算能力、チャネル容量、精度の要件は決定時に考慮される。
さらに,結合モデルの量子化と分割を取り入れた推論システムのための新しい最適化フレームワークを提案する。
提案手法は,最適化モデルにおける精度劣化量を用いて,タスクの精度の異なる要求を考慮しつつ,時間消費とコストを最小化するために,層単位での量子化ビット幅と分割点を最適化する。
本研究は,推定サービスシステムにおける量子化層のビット幅を最適化する最初の試みであり,精度劣化の理論的測定を導入している。
シミュレーションの結果、計算ペイロードは80%以上減少し、精度は1%以下である。
関連論文リスト
- QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Adaptive Resolution Inference (ARI): Energy-Efficient Machine Learning for Internet of Things [11.802983172874901]
Internet of Thingsデバイスにおける機械学習の実装は、限られたエネルギーと計算資源のために、重大な運用上の問題を引き起こす。
本稿では,エネルギー散逸とモデル性能の新たなトレードオフを評価する新しい手法である適応分解能推論(ARI)を提案する。
論文 参考訳(メタデータ) (2024-08-26T16:00:26Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Adaptive Model Pruning and Personalization for Federated Learning over
Wireless Networks [72.59891661768177]
フェデレーション学習(FL)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。
これらの課題を克服するために、部分的なモデルプルーニングとパーソナライズを備えたFLフレームワークを検討する。
このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイスのために微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。
論文 参考訳(メタデータ) (2023-09-04T21:10:45Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。