Fugu-MT 論文翻訳(概要): Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators

論文の概要: Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators

arxiv url: http://arxiv.org/abs/2502.07842v1
Date: Tue, 11 Feb 2025 05:32:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.717492
Title: Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators
Title（参考訳）: 高精度かつ効率的なメモリ内加速器のためのカラムワイドな重みと部分和の量子化
Authors: Jiyoon Kim, Kang Eun Jeon, Yulhwa Kim, Jong Hwan Ko,
Abstract要約: CIMはディープニューラルネットワーク(DNN)の効率的な実装方法である CIMはアナログ・デジタルコンバータ(ADC)のかなりのオーバーヘッドに悩まされている細胞制限と複数の細胞の必要性により生じる低ビットの重量制限はさらなる課題を呈している。この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。
参考スコア（独自算出の注目度）: 7.728820930581886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compute-in-memory (CIM) is an efficient method for implementing deep neural networks (DNNs) but suffers from substantial overhead from analog-to-digital converters (ADCs), especially as ADC precision increases. Low-precision ADCs can re- duce this overhead but introduce partial-sum quantization errors degrading accuracy. Additionally, low-bit weight constraints, im- posed by cell limitations and the need for multiple cells for higher- bit weights, present further challenges. While fine-grained partial- sum quantization has been studied to lower ADC resolution effectively, weight granularity, which limits overall partial-sum quantized accuracy, remains underexplored. This work addresses these challenges by aligning weight and partial-sum quantization granularities at the column-wise level. Our method improves accuracy while maintaining dequantization overhead, simplifies training by removing two-stage processes, and ensures robustness to memory cell variations via independent column-wise scale factors. We also propose an open-source CIM-oriented convolution framework to handle fine-grained weights and partial-sums effi- ciently, incorporating a novel tiling method and group convolution. Experimental results on ResNet-20 (CIFAR-10, CIFAR-100) and ResNet-18 (ImageNet) show accuracy improvements of 0.99%, 2.69%, and 1.01%, respectively, compared to the best-performing related works. Additionally, variation analysis reveals the robust- ness of our method against memory cell variations. These findings highlight the effectiveness of our quantization scheme in enhancing accuracy and robustness while maintaining hardware efficiency in CIM-based DNN implementations. Our code is available at https://github.com/jiyoonkm/ColumnQuant.
Abstract（参考訳）: Compute-in-Memory(CIM)は、ディープニューラルネットワーク(DNN)を実装するための効率的な方法であるが、特にADCの精度が向上するにつれて、アナログ・デジタルコンバータ(ADC)のかなりのオーバーヘッドに悩まされる。低精度のADCは、このオーバーヘッドを再生成できるが、部分的なサム量子化誤差の分解精度を導入する。さらに、低ビットの重みの制約、細胞制限によるIm-posed、高ビットの重みのための複数セルの必要性などにより、さらなる課題が提示される。微粒な部分和量子化は、ADC分解能を効果的に低下させるために研究されているが、全体的な部分和量子化精度を制限する重みの粒度は、まだ未解明のままである。この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。本手法は,遅延化オーバーヘッドを維持しながら精度を向上し,2段階プロセスの除去によるトレーニングを簡略化し,独立したカラムワイドスケールファクタによるメモリセルの変動に対する堅牢性を確保する。また,新たなタイリング手法とグループ畳み込みを取り入れたオープンソースのCIM指向の畳み込みフレームワークを提案する。 ResNet-20 (CIFAR-10, CIFAR-100) と ResNet-18 (ImageNet) の実験結果は、それぞれ0.99%、2.69%、1.01%の精度向上を示した。さらに, 変動解析により, メモリセルの変動に対する手法の頑健さが明らかになった。これらの結果は、CIMベースのDNN実装におけるハードウェア効率を維持しつつ、精度と堅牢性を向上するための量子化方式の有効性を強調した。私たちのコードはhttps://github.com/jiyoonkm/ColumnQuant.comから入手可能です。

関連論文リスト

ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。 ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文参考訳（メタデータ） (2026-01-29T18:35:01Z)
Extreme Model Compression with Structured Sparsity at Low Precision [10.976782748075067]
ディープニューラルネットワーク(DNN)は多くのアプリケーションで使用されているが、その大きなサイズと高い計算コストにより、限られたリソースを持つデバイス上での動作が困難になる。この課題に対処するために広く使われている2つの手法は、重量量子化(英語版)であり、これは全ての重量の精度を下げるものであり、構造的空間性(英語版)は重要でない重量を除去し、重要な重量を完全精度で保持する。低精度のSLOPE構造空間を統一的なフレームワークとして導入し、構造化された空間空間と低ビット量子化を原理的に効果的に組み合わせる。
論文参考訳（メタデータ） (2025-11-11T15:37:55Z)
Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。 PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文参考訳（メタデータ） (2025-08-27T15:59:36Z)
FBQuant: FeedBack Quantization for Large Language Models [13.545647487024864]
自動制御における負のフィードバック機構にインスパイアされた新しいアプローチであるFeedBack Quantization (FBQuant)を提案する。 FBQuantは本質的に、再構成された重量が量子化によって束縛されることを保証し、過剰適合のリスクを低減する。 3ビットのLlama2-7Bでは、FBQuantはゼロショット精度を1.2%向上させる。
論文参考訳（メタデータ） (2025-01-25T06:04:07Z)
HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。 LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文参考訳（メタデータ） (2025-01-05T18:41:54Z)
DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文参考訳（メタデータ） (2024-02-19T09:04:30Z)
A2Q+: Improving Accumulator-Aware Weight Quantization [45.14832807541816]
量子化技術は一般的に、重みとアクティベーションの精度を制限することにより、ニューラルネットワークの推論コストを削減している。最近の研究は、トレーニング中にモデルの重みを制約し、推論中にターゲットのアキュムレータビット幅を安全に使用するための量子化対応トレーニング手法である、アキュムレータ対応量子化(A2Q)を提案する。我々は、事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略であるA2Q+を紹介する。
論文参考訳（メタデータ） (2024-01-19T00:27:34Z)
Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文参考訳（メタデータ） (2023-12-17T02:31:20Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。 LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文参考訳（メタデータ） (2022-06-20T03:48:17Z)
n-hot: Efficient bit-level sparsity for powers-of-two neural network quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。 PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文参考訳（メタデータ） (2021-03-22T10:13:12Z)
Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文参考訳（メタデータ） (2020-11-29T03:53:49Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文参考訳（メタデータ） (2020-02-03T04:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。