論文の概要: FlexiQ: Adaptive Mixed-Precision Quantization for Latency/Accuracy Trade-Offs in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2510.02822v1
- Date: Fri, 03 Oct 2025 09:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.322838
- Title: FlexiQ: Adaptive Mixed-Precision Quantization for Latency/Accuracy Trade-Offs in Deep Neural Networks
- Title(参考訳): FlexiQ: ディープニューラルネットワークにおける遅延/精度トレードオフのための適応混合精度量子化
- Authors: Jaemin Kim, Hongjun Um, Sungkyun Kim, Yongjun Park, Jiwon Seo,
- Abstract要約: FlexiQはコンピュータビジョンモデルのための適応型混合精度量子化スキームである。
量子化誤差を最小限に抑えるために、小さな値範囲を持つ特徴チャネルに低ビット幅を適用する。
低ビット幅のチャネル比をリアルタイムで調整し、量子化されたモデルで推論の作業量を管理することができる。
- 参考スコア(独自算出の注目度): 9.07106283505631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks commonly execute on hardware accelerators such as NPUs and GPUs for their size and computation overhead. These accelerators are costly and it is hard to scale their resources to handle real-time workload fluctuations. We present FlexiQ, an adaptive mixed-precision quantization scheme for computer vision models. FlexiQ selectively applies low-bitwidth computation to feature channels with small value ranges and employs an efficient bit-lowering method to minimize quantization errors while maintaining inference accuracy. Furthermore, FlexiQ adjusts its low-bitwidth channel ratio in real time, enabling quantized models to effectively manage fluctuating inference workload. We implemented FlexiQ prototype, including the mixed-precision inference runtime on our custom NPU and GPUs. Evaluated on eleven convolution- and transformer-based vision models, FlexiQ achieves on average 6.6% higher accuracy for 4-bit models with finetuning and outperforms four state-of-the-art quantization techniques. Moreover, our mixed-precision models achieved an efficient accuracy-latency trade-off, with the 50% 4-bit model incurring only 0.6% accuracy loss while achieving 40% of the speedup of the 100% 4-bit model over 8-bit model. Latency evaluations on our NPU and GPUs confirmed that FlexiQ introduces minimal runtime overhead, demonstrating its hardware efficiency and overall performance benefits.
- Abstract(参考訳): ニューラルネットワークは、NPUやGPUなどのハードウェアアクセラレータ上で、そのサイズと計算オーバーヘッドに対して一般的に実行される。
これらのアクセラレーターは費用がかかり、リアルタイムのワークロードの変動に対処するためにリソースをスケールするのは困難です。
コンピュータビジョンモデルのための適応型混合精度量子化スキームFlexiQを提案する。
FlexiQは、小さな値範囲を持つ特徴チャネルに対して、低ビット幅の計算を選択的に適用し、推論精度を維持しながら量子化誤差を最小限に抑えるために効率的なビットローダリング手法を採用している。
さらに、FlexiQはその低ビット幅チャネル比をリアルタイムで調整し、量子化されたモデルが変動する推論のワークロードを効果的に管理できるようにする。
独自のNPUとGPU上での混合精度推論ランタイムを含むFlexiQプロトタイプを実装した。
11個の畳み込みおよびトランスフォーマーベースの視覚モデルに基づいて評価され、FlexiQは4ビットモデルに対して平均6.6%の精度で精度を達成し、4つの最先端量子化技術より優れている。
さらに,我々の混合精度モデルでは,50%の4ビットモデルでは0.6%の精度損失しか得られず,100%4ビットモデルの8ビットモデルよりも40%のスピードアップを達成した。
NPUとGPUのレイテンシ評価では、FlexiQは最小限のランタイムオーバーヘッドを導入し、ハードウェア効率と全体的なパフォーマンス上のメリットを示しています。
関連論文リスト
- Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Efficient FPGA-accelerated Convolutional Neural Networks for Cloud Detection on CubeSats [0.5420492913071214]
資源制約付きCubeSatミッションにおけるクラウド検出のためのFPGA加速畳み込みニューラルネットワーク(CNN)モデルの実装について述べる。
本研究では,ピクセルワイド(Pixel-NetとPatch-Net)と画像ワイド(U-NetとScene-Net)の両方のモデルを用いて,精度,レイテンシ,モデル複雑性のトレードオフをベンチマークする。
全てのモデルはFPGA後の高精度な統合を保ち、量子化とプルーニング後に最大精度がわずか0.6%低下した。
論文 参考訳(メタデータ) (2025-04-04T19:32:47Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。