論文の概要: Efficient Neural Compression with Inference-time Decoding
- arxiv url: http://arxiv.org/abs/2406.06237v1
- Date: Mon, 10 Jun 2024 13:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:58:00.147410
- Title: Efficient Neural Compression with Inference-time Decoding
- Title(参考訳): 推論時間デコードによる効率的なニューラル圧縮
- Authors: C. Metz, O. Bichler, A. Dupret,
- Abstract要約: 本稿では,Resnetsの圧縮境界を1ビットフロンティアを超えて押し上げるために,混合精度,ゼロ点量子化,エントロピー符号化を組み合わせたアプローチを提案する。
実装の観点からは、コンパクトデコーダアーキテクチャは遅延を低減し、推論互換のデコードを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the combination of neural network quantization and entropy coding for memory footprint minimization. Edge deployment of quantized models is hampered by the harsh Pareto frontier of the accuracy-to-bitwidth tradeoff, causing dramatic accuracy loss below a certain bitwidth. This accuracy loss can be alleviated thanks to mixed precision quantization, allowing for more flexible bitwidth allocation. However, standard mixed precision benefits remain limited due to the 1-bit frontier, that forces each parameter to be encoded on at least 1 bit of data. This paper introduces an approach that combines mixed precision, zero-point quantization and entropy coding to push the compression boundary of Resnets beyond the 1-bit frontier with an accuracy drop below 1% on the ImageNet benchmark. From an implementation standpoint, a compact decoder architecture features reduced latency, thus allowing for inference-compatible decoding.
- Abstract(参考訳): 本稿では,メモリフットプリント最小化のためのニューラルネットワーク量子化とエントロピー符号化の組み合わせについて検討する。
量子化モデルのエッジ展開は、精度とビット幅のトレードオフの厳しいパレートフロンティアによって妨げられ、一定のビット幅以下で劇的に精度が低下する。
この精度損失は、混合精度量子化により軽減され、より柔軟なビット幅割り当てが可能となる。
しかし、1ビットのフロンティアのため、標準的な混合精度の利点は依然として限られており、各パラメータは少なくとも1ビットのデータでエンコードされなければならない。
本稿では、1ビットフロンティアを超えてResnetsの圧縮境界を押し上げるために、混合精度、ゼロポイント量子化、エントロピー符号化を組み合わせたアプローチを提案する。
実装の観点からは、コンパクトデコーダアーキテクチャは遅延を低減し、推論互換のデコードを可能にする。
関連論文リスト
- The END: An Equivariant Neural Decoder for Quantum Error Correction [73.4384623973809]
データ効率のよいニューラルデコーダを導入し、この問題の対称性を活用する。
本稿では,従来のニューラルデコーダに比べて精度の高い新しい同変アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-14T19:46:39Z) - Deep Quantum Error Correction [73.54643419792453]
量子誤り訂正符号(QECC)は、量子コンピューティングのポテンシャルを実現するための鍵となる要素である。
本研究では,新しいエンペンド・ツー・エンドの量子誤りデコーダを効率的に訓練する。
提案手法は,最先端の精度を実現することにより,QECCのニューラルデコーダのパワーを実証する。
論文 参考訳(メタデータ) (2023-01-27T08:16:26Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - On the Acceleration of Deep Neural Network Inference using Quantized
Compressed Sensing [0.0]
量子化圧縮センシング(QCS)に基づく新しいバイナリ量子化関数を提案する。
提案手法は, 量子化誤差を低減し, 精度を低下させるとともに, 標準手法の実用的メリットを保っている。
論文 参考訳(メタデータ) (2021-08-23T12:03:24Z) - Data-free mixed-precision quantization using novel sensitivity metric [6.031526641614695]
量子化誤差がタスクロスや他の層との相互作用に与える影響を考慮した新しい感度測定法を提案する。
実験により,提案手法が量子化感度をよりよく表現し,生成したデータは混合精度量子化に適用できることを示す。
論文 参考訳(メタデータ) (2021-03-18T07:23:21Z) - Scalable Neural Decoder for Topological Surface Codes [0.0]
本稿では,雑音およびシンドローム測定誤差を考慮に入れた安定化符号群に対するニューラルネットワークに基づくデコーダを提案する。
重要なイノベーションは、エラーシンドロームを小さなスケールで自動デコードすることである。
このような前処理によって,実用アプリケーションにおいて最大2桁の誤差率を効果的に削減できることを示す。
論文 参考訳(メタデータ) (2021-01-18T19:02:09Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Bayesian Bits: Unifying Quantization and Pruning [73.27732135853243]
我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
提案手法をいくつかのベンチマーク・データセット上で実験的に検証し,プレナード付き混合精度ネットワークを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-05-14T16:00:34Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z) - Quantized Neural Network Inference with Precision Batching [4.519884877213097]
精度はニューラルネットワークを個々のビット層に分解し、高速な1ビット演算を用いて蓄積する。
精度は、全精度ベースラインの1%エラーマージン内において、GPU上のエンドツーエンドの8倍の精度が得られる。
さまざまなアプリケーションにおいて、Precisionは、完全な精度ベースラインの1%エラーマージン内において、GPU上のエンド・ツー・エンドの8倍の値を得る。
論文 参考訳(メタデータ) (2020-02-26T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。