論文の概要: QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization
- arxiv url: http://arxiv.org/abs/2605.10959v1
- Date: Tue, 05 May 2026 08:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.258785
- Title: QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization
- Title(参考訳): QuIDE: アクティブ最適化による量子インテリジェンストレードオフのマスタリング
- Authors: Xiantao Jiang,
- Abstract要約: 現在、量子化されたニューラルネットワークの効率を評価するための統一された計量は存在しない。
圧縮精度-遅延トレードオフを1つのスコアに分解するQuIDEを提案する。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is currently no unified metric for evaluating the efficiency of quantized neural networks. We propose QuIDE, built around the Intelligence Index I = (C x P)/log_2(T+1), which collapses the compression-accuracy-latency trade-off into a single score. Experiments across six settings -- SimpleCNN (MNIST, CIFAR), ResNet-18 (ImageNet-1K), and Llama-3-8B -- show a task-dependent Pareto Knee. 4-bit quantization is optimal for MNIST and large LLMs, while 8-bit is the sweet spot for complex CNN tasks (ResNet-18 on ImageNet), where 4-bit PTQ collapses accuracy catastrophically. The accuracy-gated variant I' correctly flags these non-viable configurations that the raw I would reward. QuIDE provides a reproducible evaluation protocol and a ready-to-use fitness function for mixed-precision search.
- Abstract(参考訳): 現在、量子化されたニューラルネットワークの効率を評価するための統一された計量は存在しない。
本稿では,インテリジェンスインデックスI = (C x P)/log_2(T+1) を中心に構築されたQuIDEを提案する。
SimpleCNN(MNIST、CIFAR)、ResNet-18(ImageNet-1K)、Llama-3-8B(リンク)の6つの設定にわたる実験は、タスク依存のPareto Kneeを示している。
4ビットの量子化はMNISTと大規模LLMに最適であるが、8ビットは複雑なCNNタスク(ImageNetのResNet-18)のスイートスポットであり、4ビットのPTQは破滅的に精度を低下させる。
正確なゲート付き変種I'は、生のIが報いるような、動作不能な設定を正しくフラグ付けします。
QuIDEは再現可能な評価プロトコルと、混合精度検索のための準備ができているフィットネス機能を提供する。
関連論文リスト
- Learning Activation Functions for Sparse Neural Networks [12.234742322758418]
スパースニューラルネットワーク(SNN)は、密度の高いニューラルネットワークと同じようなパフォーマンスを示す可能性がある。
しかし、SNNによる精度低下、特に高い刈り込み比は、重要な配置条件において問題となる可能性がある。
スパースネットワークのためのアクティベーション関数をチューニングする新しい方法を学ぶことに集中する。
論文 参考訳(メタデータ) (2023-05-18T13:30:29Z) - DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural
Network Inference [28.912023025671868]
この作業は、DyBitと呼ばれる可変長エンコーディングを持つ適応データ表現をターゲットにしている。
また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。
実験の結果、DyBitによる推論精度は4ビット量子化の最先端よりも1.997%高いことがわかった。
論文 参考訳(メタデータ) (2023-02-24T08:46:01Z) - OMPQ: Orthogonal Mixed Precision Quantization [72.63889596498004]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Precision Gating: Improving Neural Network Efficiency with Dynamic
Dual-Precision Activations [22.71924873981158]
PG(Precision Gating)は、ディープニューラルネットワークのためのエンドツーエンドのトレーニング可能な動的二重精度量子化技術である。
PGは、ShuffleNetのような静的に圧縮されたモバイルフレンドリーなネットワークを含むCNNで優れた結果を得る。
8ビットの均一量子化と比較すると、PGは1ワードあたりのパープレキシティが1.2%向上し、LSTMの計算コストは2.7$timesである。
論文 参考訳(メタデータ) (2020-02-17T18:54:37Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。