論文の概要: MiCo: End-to-End Mixed Precision Neural Network Co-Exploration Framework for Edge AI
- arxiv url: http://arxiv.org/abs/2508.09500v1
- Date: Wed, 13 Aug 2025 05:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.766803
- Title: MiCo: End-to-End Mixed Precision Neural Network Co-Exploration Framework for Edge AI
- Title(参考訳): MiCo: エッジAIのためのエンドツーエンドの高精度ニューラルネットワーク共探索フレームワーク
- Authors: Zijun Jiang, Yangdi Lyu,
- Abstract要約: 極低ビット幅データを持つ量子ニューラルネットワーク(QNN)は、エッジデバイス上での効率的なストレージと計算において有望であることが証明されている。
高速化を図りながら精度低下をさらに低減するため、層単位での混合精度量子化(MPQ)が一般的な解となる。
エッジAIアプリケーションのための総合的なMPQ探索およびデプロイメントフレームワークであるMiCoフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantized Neural Networks (QNN) with extremely low-bitwidth data have proven promising in efficient storage and computation on edge devices. To further reduce the accuracy drop while increasing speedup, layer-wise mixed-precision quantization (MPQ) becomes a popular solution. However, existing algorithms for exploring MPQ schemes are limited in flexibility and efficiency. Comprehending the complex impacts of different MPQ schemes on post-training quantization and quantization-aware training results is a challenge for conventional methods. Furthermore, an end-to-end framework for the optimization and deployment of MPQ models is missing in existing work. In this paper, we propose the MiCo framework, a holistic MPQ exploration and deployment framework for edge AI applications. The framework adopts a novel optimization algorithm to search for optimal quantization schemes with the highest accuracies while meeting latency constraints. Hardware-aware latency models are built for different hardware targets to enable fast explorations. After the exploration, the framework enables direct deployment from PyTorch MPQ models to bare-metal C codes, leading to end-to-end speedup with minimal accuracy drops.
- Abstract(参考訳): 極低ビット幅データを持つ量子ニューラルネットワーク(QNN)は、エッジデバイス上での効率的なストレージと計算において有望であることが証明されている。
高速化を図りながら精度低下をさらに低減するため、層単位での混合精度量子化(MPQ)が一般的な解となる。
しかし、MPQスキームを探索する既存のアルゴリズムは、柔軟性と効率性に制限がある。
学習後の量子化と量子化を考慮した学習結果に対する様々なMPQスキームの複雑な影響を補うことは,従来の手法では困難である。
さらに、MPQモデルの最適化とデプロイのためのエンドツーエンドフレームワークが既存の作業に欠けている。
本稿では,エッジAIアプリケーションのための総合的なMPQ探索およびデプロイメントフレームワークであるMiCoフレームワークを提案する。
このフレームワークは、レイテンシ制約を満たしながら高い精度で最適な量子化スキームを探索するための、新しい最適化アルゴリズムを採用している。
ハードウェア対応のレイテンシモデルは、高速な探索を可能にするために、さまざまなハードウェアターゲット用に構築されている。
調査の後、フレームワークはPyTorch MPQモデルからベアメタルCコードへの直接デプロイを可能にし、最小限の精度でエンドツーエンドのスピードアップを実現する。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - JAQ: Joint Efficient Architecture Design and Low-Bit Quantization with Hardware-Software Co-Exploration [38.264287509278866]
本稿では,3つの臨界次元を協調的に最適化するJAQフレームワークを提案する。
ソフトウェア側のメモリオーバーヘッド: 低精度の量子化対応トレーニングは、メモリ使用量を大幅に増加させる可能性がある。
ハードウェア側での検索時間: ハードウェアパラメータの離散的な性質と、コンパイラ最適化と個々の演算子間の複雑な相互作用は、アクセラレーター検索に時間を要する。
論文 参考訳(メタデータ) (2025-01-09T16:10:06Z) - MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization [6.456189487006878]
基本モデル(FM)の量子化は、外れ値と呼ばれる大きめの値の出現によって困難である。
既存のoutlier-awareアルゴリズムアーキテクチャの共同設計技術は、混合精度を使用し、outlierを高い精度で保持するが、ハードウェア効率を損なうか、同じ精度でinlierとoutlierを定量化する。
我々は、プルーニングを利用して外れ値認識量子化を補完する新しい共同設計手法MicroScopiQを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:25:45Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文 参考訳(メタデータ) (2022-06-09T12:38:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。