論文の概要: EfficientQuant: An Efficient Post-Training Quantization for CNN-Transformer Hybrid Models on Edge Devices
- arxiv url: http://arxiv.org/abs/2506.11093v1
- Date: Thu, 05 Jun 2025 21:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.57543
- Title: EfficientQuant: An Efficient Post-Training Quantization for CNN-Transformer Hybrid Models on Edge Devices
- Title(参考訳): EfficientQuant:エッジデバイス上でのCNN-Transformerハイブリッドモデルの効率的なポストトレーニング量子化
- Authors: Shaibal Saha, Lanyu Xu,
- Abstract要約: 畳み込みブロックとトランスフォーマーブロックを組み合わせたハイブリッドモデルは、コンピュータビジョン(CV)タスクにおいて強力なパフォーマンスを提供するが、エッジデプロイメントにはリソース集約である。
EfficientQuantは、畳み込みブロックに均一な量子化を適用し、変形器ブロックに$log$量子化を適用する新しい構造対応PTQアプローチである。
EfficientQuantは、ImageNet-1Kデータセット上で、最小の精度損失で2.5倍のレイテンシ削減を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hybrid models that combine convolutional and transformer blocks offer strong performance in computer vision (CV) tasks but are resource-intensive for edge deployment. Although post-training quantization (PTQ) can help reduce resource demand, its application to hybrid models remains limited. We propose EfficientQuant, a novel structure-aware PTQ approach that applies uniform quantization to convolutional blocks and $log_2$ quantization to transformer blocks. EfficientQuant achieves $2.5 \times - 8.7 \times$ latency reduction with minimal accuracy loss on the ImageNet-1K dataset. It further demonstrates low latency and memory efficiency on edge devices, making it practical for real-world deployment.
- Abstract(参考訳): 畳み込みブロックとトランスフォーマーブロックを組み合わせたハイブリッドモデルは、コンピュータビジョン(CV)タスクにおいて強力なパフォーマンスを提供するが、エッジデプロイメントにはリソース集約である。
ポストトレーニング量子化(PTQ)は資源需要の削減に役立つが、ハイブリッドモデルへの応用は限定的である。
EfficientQuantは、畳み込みブロックに均一な量子化と変換ブロックに$log_2$量子化を適用する新しい構造対応PTQアプローチである。
EfficientQuantは、ImageNet-1Kデータセットで最小限の精度で、2.5 \times - 8.7 \times$レイテンシ削減を実現する。
さらに、エッジデバイス上での低レイテンシとメモリ効率が示され、現実のデプロイメントに実用的になる。
関連論文リスト
- HQViT: Hybrid Quantum Vision Transformer for Image Classification [48.72766405978677]
本稿では,モデル性能を向上しつつ,モデルトレーニングを高速化するHybrid Quantum Vision Transformer(HQViT)を提案する。
HQViTは振幅エンコーディングによる全画像処理を導入し、位置エンコーディングを追加せずにグローバルな画像情報をよりよく保存する。
様々なコンピュータビジョンデータセットの実験により、HQViTは既存のモデルよりも優れており、最大10.9%(MNIST 10-classification task)の改善を実現している。
論文 参考訳(メタデータ) (2025-04-03T16:13:34Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems [23.261607952479377]
視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。
本稿では,効率的なハイブリッドViTの量子化を初めて行うポストトレーニング量子化手法を提案する。
従来のPTQ法と比較して, 8ビットで17.73%, 6ビットで29.75%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-03-22T13:41:22Z) - Sharpness-aware Quantization for Deep Neural Networks [45.150346855368]
シャープネス・アウェア量子化(SAQ)は,シャープネス・アウェア最小化(SAM)がモデル圧縮に与える影響を探索する新しい手法である。
本研究では,SAQにより量子化モデルの一般化性能が向上し,SOTAの結果が均一に量子化されることを示す。
論文 参考訳(メタデータ) (2021-11-24T05:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。