論文の概要: HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference
- arxiv url: http://arxiv.org/abs/2602.06069v1
- Date: Mon, 02 Feb 2026 18:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.021976
- Title: HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference
- Title(参考訳): HQP:超低レイテンシエッジAI推論のための感度を考慮したハイブリッド量子化とプルーニング
- Authors: Dinesh Gopalan, Ratul Ali,
- Abstract要約: 相乗的モデル加速を実現するために設計されたHybrid Quantization and Pruning (HQP)フレームワーク。
HQPフレームワークは3.12倍の推論速度向上と55%のモデルサイズ縮小を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The escalating demand for high-fidelity, real-time inference in distributed edge-cloud environments necessitates aggressive model optimization to counteract severe latency and energy constraints. This paper introduces the Hybrid Quantization and Pruning (HQP) framework, a novel, integrated methodology designed to achieve synergistic model acceleration while adhering to strict quality guarantees. We detail a sensitivity-aware structural pruning algorithm that employs a dynamic weight sensitivity metric, derived from a highly efficient approximation of the Fisher Information Matrix (FIM), to guide the iterative removal of redundant filters. This pruning is strictly conditional, enforcing an adherence to a maximum permissible accuracy drop (Delta ax) before the model proceeds to 8-bit post-training quantization. This rigorous coordination is critical, as it ensures the resultant sparse model structure is maximally robust to quantization error and hardware-specific kernel optimization. Exhaustive evaluation across heterogeneous NVIDIA Jetson edge platforms, utilizing resource-efficient architectures like MobileNetV3 and ResNet-18, demonstrates that the HQP framework achieves a peak performance gain of 3.12 times inference speedup and a 55 percent model size reduction, while rigorously containing the accuracy drop below the 1.5 percent constraint. A comprehensive comparative analysis against conventional single-objective compression techniques validates the HQP framework as a superior, hardware-agnostic solution for deploying ultra-low-latency AI in resource-limited edge infrastructures.
- Abstract(参考訳): 分散エッジクラウド環境における高忠実でリアルタイムな推論に対する需要の増大は、厳しいレイテンシとエネルギー制約に対処するために、アグレッシブなモデル最適化を必要とする。
本稿では,厳密な品質保証に固執しつつ,相乗的モデルアクセラレーションを実現するための新しい統合手法であるHybrid Quantization and Pruning(HQP)フレームワークを紹介する。
本稿では,Fisher Information Matrix (FIM) の高効率な近似から導かれる動的重量感度測定値を用いて,冗長フィルタの反復除去を導出する感度認識型構造解析アルゴリズムについて述べる。
このプルーニングは厳密な条件付きであり、モデルが8ビット後の量子化に進む前に最大許容精度低下(Delta ax)に固執する。
この厳密な調整は、結果のスパースモデル構造が量子化エラーやハードウェア固有のカーネル最適化に対して最大で堅牢であることを保証するため、重要である。
MobileNetV3やResNet-18のようなリソース効率のよいアーキテクチャを利用して、異機種のNVIDIA Jetsonエッジプラットフォームをまたいだ排他的評価は、HQPフレームワークがピークパフォーマンスの3.12倍の推論速度アップと55%のモデルサイズ縮小を実現し、精度の低下を1.5パーセント以下の厳格に含んでいることを実証している。
従来の単一目的圧縮技術に対する包括的な比較分析は、HQPフレームワークをリソース制限エッジインフラストラクチャに超低レイテンシAIをデプロイするための優れたハードウェアに依存しないソリューションとして検証する。
関連論文リスト
- Constrained Dynamic Gaussian Splatting [47.982650444869336]
Constrained Dynamic Gaussian Splatting (CDGS)は、動的シーン再構成を予算制約付き最適化問題として定式化する新しいフレームワークである。
本報告では,CDGSは,最先端手法に比べて3倍以上の圧縮を実現し,キャパシティの限界下で最適なレンダリング品質を提供することを示す。
論文 参考訳(メタデータ) (2026-02-03T13:53:29Z) - NOVAK: Unified adaptive optimizer for deep neural networks [0.0]
NOVAKは、適応モーメント推定、修正学習率スケジューリング、デカップリングウェイト正規化、ネステロフ運動量の複数変種、ルックアヘッド同期を統一されたパフォーマンス指向のフレームワークに統合する勾配に基づく最適化アルゴリズムである。
論文 参考訳(メタデータ) (2026-01-11T13:03:57Z) - A Multi-Stage Optimization Framework for Deploying Learned Image Compression on FPGAs [7.577235739757108]
ディープラーニングベースの画像圧縮(lic)は、最先端のレート歪み(RD)性能を達成したが、これらのモデルをリソース制約付きFPGAにデプロイすることは大きな課題である。
この研究は、高性能浮動小数点モデルと効率的なハードウェアフレンドリな整数ベースの実装とのギャップを埋める、完全なマルチステージ最適化フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-21T10:55:44Z) - SCEESR: Semantic-Control Edge Enhancement for Diffusion-Based Super-Resolution [0.8122270502556375]
現実世界の超解像は複雑な劣化と固有の再構成の曖昧さに対処しなければならない。
一段階拡散モデルは速度を提供するが、蒸留品による構造的不正確さをしばしば生み出す。
セマンティックエッジガイダンスのための制御ネット機構を用いて,一段階拡散モデルを強化する新しいSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-22T06:06:01Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Steepest Descent Density Control for Compact 3D Gaussian Splatting [72.54055499344052]
3D Gaussian Splatting (3DGS)は、強力なリアルタイム高解像度ノベルビューとして登場した。
本稿では,3DGSの密度制御をデミストし,改良する理論的枠組みを提案する。
我々はSteepGSを導入し、コンパクトな点雲を維持しながら損失を最小限に抑える原則的戦略である、最も急な密度制御を取り入れた。
論文 参考訳(メタデータ) (2025-05-08T18:41:38Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Sharpness-aware Quantization for Deep Neural Networks [45.150346855368]
シャープネス・アウェア量子化(SAQ)は,シャープネス・アウェア最小化(SAM)がモデル圧縮に与える影響を探索する新しい手法である。
本研究では,SAQにより量子化モデルの一般化性能が向上し,SOTAの結果が均一に量子化されることを示す。
論文 参考訳(メタデータ) (2021-11-24T05:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。