論文の概要: GABFusion: Rethinking Feature Fusion for Low-Bit Quantization of Multi-Task Networks
- arxiv url: http://arxiv.org/abs/2511.05898v1
- Date: Sat, 08 Nov 2025 07:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.64392
- Title: GABFusion: Rethinking Feature Fusion for Low-Bit Quantization of Multi-Task Networks
- Title(参考訳): GABFusion:マルチタスクネットワークの低ビット量子化のための機能融合の再考
- Authors: Zhaoyang Wang, Dong Wang,
- Abstract要約: 本研究では, グラディエント・アウェア・バランスド・フィーチャー・フュージョン (GABFusion) を提案し, グラディエント・アウェア・バランスド・フィーチャー・フュージョン (GABFusion) を量子化フレンドリーな方法で融合させる。
我々の戦略は、異なるネットワークアーキテクチャとビット幅にわたる様々なQATメソッドを一貫して強化します。
特に、提案されたフレームワークはモジュール化されており、統合が容易で、既存のQAT技術と互換性があり、量子化されたモデルの性能を高めている。
- 参考スコア(独自算出の注目度): 7.087257323517682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the effectiveness of quantization-aware training (QAT) in compressing deep neural networks, its performance on multi-task architectures often degrades significantly due to task-specific feature discrepancies and gradient conflicts. To address these challenges, we propose Gradient-Aware Balanced Feature Fusion (GABFusion), which dynamically balances gradient magnitudes and fuses task-specific features in a quantization-friendly manner. We further introduce Attention Distribution Alignment (ADA), a feature-level distillation strategy tailored for quantized models. Our method demonstrates strong generalization across network architectures and QAT algorithms, with theoretical guarantees on gradient bias reduction. Extensive experiments demonstrate that our strategy consistently enhances a variety of QAT methods across different network architectures and bit-widths. On PASCAL VOC and COCO datasets, the proposed approach achieves average mAP improvements of approximately 3.3% and 1.6%, respectively. When applied to YOLOv5 under 4-bit quantization, our method narrows the accuracy gap with the full-precision model to only 1.7% on VOC, showcasing its effectiveness in preserving performance under low-bit constraints. Notably, the proposed framework is modular, easy to integrate, and compatible with any existing QAT technique-enhancing the performance of quantized models without requiring modifications to the original network architecture.
- Abstract(参考訳): ディープニューラルネットワークの圧縮における量子化対応トレーニング(QAT)の有効性にもかかわらず、タスク固有の特徴の相違や勾配の相違により、マルチタスクアーキテクチャのパフォーマンスは著しく低下することが多い。
これらの課題に対処するため,我々は,グラディエント・アウェア・バランスド・フィーチャー・フュージョン (GABFusion) を提案し,グラディエント・アウェア・バランスド・フィーチャー・フュージョン (GABFusion) を動的にバランスさせ,量子化に親しみやすい方法でタスク固有の特徴を融合する。
さらに、量子化モデルに適した機能レベルの蒸留戦略である注意分布アライメント(ADA)についても紹介する。
提案手法は,ネットワークアーキテクチャとQATアルゴリズムにまたがる強力な一般化を実証し,勾配バイアスの低減に関する理論的保証を与える。
大規模な実験により、我々の戦略は様々なネットワークアーキテクチャとビット幅にわたる様々なQATメソッドを一貫して拡張することを示した。
PASCAL VOCデータセットとCOCOデータセットでは、提案手法は平均mAPが約3.3%、COCOが約1.6%向上した。
4ビット量子化下でのYOLOv5に適用した場合、本手法は全精度モデルとの精度ギャップをVOCで1.7%に狭め、低ビット制約下での性能維持に有効であることを示す。
特に、提案するフレームワークはモジュール化されており、統合が容易で、既存のQAT技術と互換性があり、元のネットワークアーキテクチャの変更を必要とせず、量子化されたモデルの性能を向上させる。
関連論文リスト
- Adaptive Distribution-aware Quantization for Mixed-Precision Neural Networks [12.36496914117844]
QAT(Quantization-Aware Training)は、リソース制約のあるデバイスにディープニューラルネットワークをデプロイするための重要なテクニックである。
本稿では,適応分布対応量子化(adaptive Distribution-aware Quantization,ADQ)を提案する。
論文 参考訳(メタデータ) (2025-10-22T16:48:29Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - Precision Neural Network Quantization via Learnable Adaptive Modules [27.323901068182234]
量子化アウェアトレーニング(QAT)は、モデルサイズを圧縮し、運用効率を向上させるニューラルネットワーク量子化技術である。
本稿では、適応ステップサイズ量子化(ASQ)と呼ばれる、効果的な学習可能な適応型ニューラルネットワーク量子化法を提案する。
論文 参考訳(メタデータ) (2025-04-24T05:46:25Z) - Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and Compression [44.35542987414442]
構造化プルーニングと量子化は、ディープニューラルネットワーク(DNN)のサイズを減らすために使用される基本技術である
これらのテクニックを共同最適化を通じて併用することで、より小さく高品質なモデルを作成することができる。
本稿では,任意のDNN上で協調的構造化プルーニングと量子化学習を自動かつ効率的に行うフレームワークGETAを提案する。
論文 参考訳(メタデータ) (2025-02-23T16:28:18Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。