論文の概要: A probabilistic framework for dynamic quantization
- arxiv url: http://arxiv.org/abs/2505.10689v1
- Date: Thu, 15 May 2025 20:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.560289
- Title: A probabilistic framework for dynamic quantization
- Title(参考訳): 動的量子化のための確率的枠組み
- Authors: Gabriele Santini, Francesco Paissan, Elisabetta Farella,
- Abstract要約: 我々のフレームワークは、軽量サロゲートを介してネットワークの事前活性化に確率モデルを適用します。
我々は,一般的なコンピュータビジョンタスクとモデルに対するアプローチを検証し,性能の無視できる損失のみを観察する。
- 参考スコア(独自算出の注目度): 2.635385344076311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a probabilistic framework for dynamic quantization of neural networks that allows for a computationally efficient input-adaptive rescaling of the quantization parameters. Our framework applies a probabilistic model to the network's pre-activations through a lightweight surrogate, enabling the adaptive adjustment of the quantization parameters on a per-input basis without significant memory overhead. We validate our approach on a set of popular computer vision tasks and models, observing only a negligible loss in performance. Our method strikes the best performance and computational overhead tradeoff compared to standard quantization strategies.
- Abstract(参考訳): 本稿では,ニューラルネットワークの動的量子化のための確率的フレームワークを提案する。
我々のフレームワークは,軽量なサロゲートを用いてネットワークの事前動作に確率的モデルを適用し,メモリオーバーヘッドを伴わずにインプット毎の量子化パラメータの適応調整を可能にする。
我々は,一般的なコンピュータビジョンタスクとモデルに対するアプローチを検証し,性能の無視できる損失のみを観察する。
本手法は,標準的な量子化手法と比較して,最高の性能と計算オーバーヘッドのトレードオフを示す。
関連論文リスト
- Optimizing Deep Neural Networks using Safety-Guided Self Compression [0.0]
本研究では,ニューラルネットワークの重み付けと定量化を行う新しい安全性駆動量子化フレームワークを提案する。
提案手法は、畳み込みニューラルネットワーク(CNN)とアテンションベース言語モデルの両方で厳格に評価される。
実験結果から,本フレームワークは,従来の未定量モデルと比較して,テスト精度を最大2.5%向上することがわかった。
論文 参考訳(メタデータ) (2025-05-01T06:50:30Z) - Precision Neural Network Quantization via Learnable Adaptive Modules [27.323901068182234]
量子化アウェアトレーニング(QAT)は、モデルサイズを圧縮し、運用効率を向上させるニューラルネットワーク量子化技術である。
本稿では、適応ステップサイズ量子化(ASQ)と呼ばれる、効果的な学習可能な適応型ニューラルネットワーク量子化法を提案する。
論文 参考訳(メタデータ) (2025-04-24T05:46:25Z) - Communication-Efficient Federated Learning via Clipped Uniform Quantization [3.38220960870904]
本稿では,一様量子化によるフェデレーション学習におけるコミュニケーション効率向上のための新しい手法を提案する。
最適なクリッピングしきい値とクライアント固有の適応量子化方式を利用することで、クライアントとサーバ間のモデル重み伝達の帯域幅とメモリ要求を著しく削減する。
連合平均化とは対照的に、この設計では、クライアント固有のデータボリュームをサーバに開示する必要がなくなるため、クライアントのプライバシが向上する。
論文 参考訳(メタデータ) (2024-05-22T05:48:25Z) - Function-Space Regularization in Neural Networks: A Probabilistic
Perspective [51.133793272222874]
所望の予測関数に関する情報をニューラルネットワークトレーニングに明示的にエンコードできる、モチベーションの高い正規化手法を導出できることが示される。
本手法の有効性を実証的に評価し,提案手法がほぼ完全なセマンティックシフト検出と高度に校正された予測不確実性推定に繋がることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:50:56Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Generalization Metrics for Practical Quantum Advantage in Generative
Models [68.8204255655161]
生成モデリングは量子コンピュータにとって広く受け入れられている自然のユースケースである。
我々は,アルゴリズムの一般化性能を計測して,生成モデリングのための実用的な量子優位性を探索する,単純で曖昧な手法を構築した。
シミュレーションの結果、我々の量子にインスパイアされたモデルは、目に見えない、有効なサンプルを生成するのに、最大で68倍の費用がかかります。
論文 参考訳(メタデータ) (2022-01-21T16:35:35Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。