論文の概要: Distribution-Aware Hadamard Quantization for Hardware-Efficient Implicit Neural Representations
- arxiv url: http://arxiv.org/abs/2508.13478v1
- Date: Tue, 19 Aug 2025 03:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.779689
- Title: Distribution-Aware Hadamard Quantization for Hardware-Efficient Implicit Neural Representations
- Title(参考訳): ハードウェア効率の良い命令型ニューラル表現のための分布を考慮したアダマール量子化
- Authors: Wenyong Zhou, Jiachen Ren, Taiqiang Wu, Yuxin Cheng, Zhengwu Liu, Ngai Wong,
- Abstract要約: Inlicit Neural Representation (INR)は、複雑なアクティベーション機能を持つマルチ層パーセプトロン(MLP)を用いて離散信号を符号化する。
以前のINR量子化アプローチは、主に重量量子化に焦点を合わせており、限られたハードウェアセーブしか提供していない。
本稿では,INRの重みとアクティベーションの両方を対象とする分布を意識した新しいアダマール量子化スキームであるDHQを提案する。
- 参考スコア(独自算出の注目度): 5.963994087619295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit Neural Representations (INRs) encode discrete signals using Multi-Layer Perceptrons (MLPs) with complex activation functions. While INRs achieve superior performance, they depend on full-precision number representation for accurate computation, resulting in significant hardware overhead. Previous INR quantization approaches have primarily focused on weight quantization, offering only limited hardware savings due to the lack of activation quantization. To fully exploit the hardware benefits of quantization, we propose DHQ, a novel distribution-aware Hadamard quantization scheme that targets both weights and activations in INRs. Our analysis shows that the weights in the first and last layers have distributions distinct from those in the intermediate layers, while the activations in the last layer differ significantly from those in the preceding layers. Instead of customizing quantizers individually, we utilize the Hadamard transformation to standardize these diverse distributions into a unified bell-shaped form, supported by both empirical evidence and theoretical analysis, before applying a standard quantizer. To demonstrate the practical advantages of our approach, we present an FPGA implementation of DHQ that highlights its hardware efficiency. Experiments on diverse image reconstruction tasks show that DHQ outperforms previous quantization methods, reducing latency by 32.7\%, energy consumption by 40.1\%, and resource utilization by up to 98.3\% compared to full-precision counterparts.
- Abstract(参考訳): Inlicit Neural Representation (INR)は、複雑なアクティベーション機能を持つマルチ層パーセプトロン(MLP)を用いて離散信号を符号化する。
INRは性能が優れているが、精度の高い計算では完全精度の数値表現に依存しており、ハードウェアのオーバーヘッドが大幅に増大する。
従来のINR量子化手法は主に重量量子化に重点を置いており、アクティベーション量子化の欠如により限られたハードウェアセーブしか提供していない。
量子化のハードウェアの利点をフル活用するために,INRの重みとアクティベーションの両方を対象とする新しい分布対応アダマール量子化スキームであるDHQを提案する。
分析の結果,第1層と第2層の重みは中間層と異なる分布を示し,第2層の活性化は前層と大きく異なることがわかった。
量子化器を個別にカスタマイズする代わりに、標準的な量子化器を適用する前に、これらの多様な分布を経験的証拠と理論的解析の両方によって支えられ、統一されたベル形に標準化するためにアダマール変換を利用する。
提案手法の実用的利点を実証するために,DHQのFPGA実装を提案する。
様々な画像再構成タスクの実験では、DHQは従来の量子化手法より優れており、レイテンシは32.7\%、エネルギー消費は40.1\%、資源消費は98.3\%である。
関連論文リスト
- RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - NIPQ: Noise proxy-based Integrated Pseudo-Quantization [9.207644534257543]
量子化対応トレーニング(QAT)におけるストレートスルー推定器(STE)の不安定収束
アクティベーションと重みの両面において擬似量子化を統一的にサポートする新しいノイズプロキシベース統合擬似量子化(NIPQ)を提案する。
NIPQは、様々なビジョンや言語アプリケーションにおける既存の量子化アルゴリズムよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-06-02T01:17:40Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。