論文の概要: Enhancing Quantization-Aware Training on Edge Devices via Relative Entropy Coreset Selection and Cascaded Layer Correction
- arxiv url: http://arxiv.org/abs/2507.17768v1
- Date: Thu, 17 Jul 2025 02:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.12425
- Title: Enhancing Quantization-Aware Training on Edge Devices via Relative Entropy Coreset Selection and Cascaded Layer Correction
- Title(参考訳): 相対エントロピーコアセット選択とカスケード層補正によるエッジデバイスにおける量子化学習の強化
- Authors: Yujia Tong, Jingling Yuan, Chuang Hu,
- Abstract要約: エッジデバイス上での量子アウェアトレーニング(QAT)は有効なソリューションとなっている。
従来のQATはトレーニングのための完全なデータセットに依存しており、これは膨大な計算コストを発生させる。
エッジデバイス上でコアセットを備えたQATフレームワークであるQuaRCを提案する。
- 参考スコア(独自算出の注目度): 4.351799529311504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of mobile and edge computing, the demand for low-bit quantized models on edge devices is increasing to achieve efficient deployment. To enhance the performance, it is often necessary to retrain the quantized models using edge data. However, due to privacy concerns, certain sensitive data can only be processed on edge devices. Therefore, employing Quantization-Aware Training (QAT) on edge devices has become an effective solution. Nevertheless, traditional QAT relies on the complete dataset for training, which incurs a huge computational cost. Coreset selection techniques can mitigate this issue by training on the most representative subsets. However, existing methods struggle to eliminate quantization errors in the model when using small-scale datasets (e.g., only 10% of the data), leading to significant performance degradation. To address these issues, we propose QuaRC, a QAT framework with coresets on edge devices, which consists of two main phases: In the coreset selection phase, QuaRC introduces the ``Relative Entropy Score" to identify the subsets that most effectively capture the model's quantization errors. During the training phase, QuaRC employs the Cascaded Layer Correction strategy to align the intermediate layer outputs of the quantized model with those of the full-precision model, thereby effectively reducing the quantization errors in the intermediate layers. Experimental results demonstrate the effectiveness of our approach. For instance, when quantizing ResNet-18 to 2-bit using a 1% data subset, QuaRC achieves a 5.72% improvement in Top-1 accuracy on the ImageNet-1K dataset compared to state-of-the-art techniques.
- Abstract(参考訳): モバイルおよびエッジコンピューティングの発展に伴い、エッジデバイス上での低ビット量子化モデルの需要が増加し、効率的なデプロイメントを実現している。
性能を向上させるために、エッジデータを用いて量子化モデルを再訓練する必要があることが多い。
しかし、プライバシー上の懸念から、特定の機密データはエッジデバイスでのみ処理できる。
そのため、エッジデバイスにおける量子化意識トレーニング(QAT)の利用は、有効なソリューションとなっている。
それでも、従来のQATはトレーニングのための完全なデータセットに依存しており、これは膨大な計算コストを発生させる。
コアセット選択技術は、最も代表的なサブセットのトレーニングによってこの問題を軽減することができる。
しかし、既存の手法では、小さなデータセット(例:データの10%)を使用する場合、モデルの量子化エラーを排除できないため、パフォーマンスが大幅に低下する。
これらの問題に対処するため,我々は,エッジデバイス上でコアセットを持つQATフレームワークであるQuaRCを提案する。
トレーニングフェーズでは、Cascaded Layer Correction戦略を用いて、量子化モデルの中間層出力と完全精度モデルの中間層出力を整合させ、中間層における量子化エラーを効果的に低減する。
実験により,本手法の有効性が示された。
例えば、1%のデータサブセットを使用してResNet-18を2ビットに量子化する場合、QuaRCは、最先端技術と比較して、ImageNet-1KデータセットのTop-1精度を5.72%改善する。
関連論文リスト
- Robust Machine Unlearning for Quantized Neural Networks via Adaptive Gradient Reweighting with Similar Labels [5.868949328814509]
モデル量子化は、低ビットパラメータ表現によるエッジデバイスへのディープニューラルネットワークの効率的な展開を可能にする。
既存のマシン・アンラーニング(MU)手法は量子化されたネットワークにおける2つの基本的な制限に対処できない。
本稿では,量子化モデルのための学習フレームワークQ-MULを提案する。
論文 参考訳(メタデータ) (2025-03-18T05:22:13Z) - Finding the Muses: Identifying Coresets through Loss Trajectories [7.293244528299574]
Loss Trajectory correlation (LTC)は、コアセット選択のための新しいメトリクスであり、一般化を駆動する重要なトレーニングサンプルを特定する。
$LTC$は、最先端のコアセット選択メソッドに匹敵する精度を一貫して達成します。
また、一致した振る舞いや矛盾するサンプルの振る舞いを識別するなど、トレーニングダイナミクスに関する洞察も提供する。
論文 参考訳(メタデータ) (2025-03-12T18:11:16Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Reducing the Side-Effects of Oscillations in Training of Quantized YOLO
Networks [5.036532914308394]
振動問題によるSOTA QAT法であっても, 効率の良いYOLOモデルでは, 極めて低精度(4ビット以下)を実現することは困難である。
そこで本研究では,QATの標準手順の後に1回の訓練を要し,誤りを訂正する簡単なQAT補正手法,すなわちQCを提案する。
論文 参考訳(メタデータ) (2023-11-09T02:53:21Z) - Efficient and Robust Quantization-aware Training via Adaptive Coreset Selection [38.23587031169402]
QAT(Quantization-Aware Training)は、重みとアクティベーションの冗長性を低減するための代表的なモデル圧縮手法である。
既存のQATメソッドの多くは、データセット全体のエンドツーエンドのトレーニングを必要とします。
トレーニング中の各試料の重要性を定量化するために, 量化重量の損失と勾配の分析に基づく2つの指標を提案する。
論文 参考訳(メタデータ) (2023-06-12T16:20:36Z) - Sharpness-aware Quantization for Deep Neural Networks [45.150346855368]
シャープネス・アウェア量子化(SAQ)は,シャープネス・アウェア最小化(SAM)がモデル圧縮に与える影響を探索する新しい手法である。
本研究では,SAQにより量子化モデルの一般化性能が向上し,SOTAの結果が均一に量子化されることを示す。
論文 参考訳(メタデータ) (2021-11-24T05:16:41Z) - A High-Performance Adaptive Quantization Approach for Edge CNN
Applications [0.225596179391365]
最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端のモデル精度を推し進めている。
精度の向上は、かなりのメモリ帯域幅とストレージ要求のコストが伴う。
本稿では,偏りのあるアクティベーションの問題を解決するための適応型高性能量子化法を提案する。
論文 参考訳(メタデータ) (2021-07-18T07:49:18Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。