論文の概要: APSQ: Additive Partial Sum Quantization with Algorithm-Hardware Co-Design
- arxiv url: http://arxiv.org/abs/2505.03748v1
- Date: Thu, 10 Apr 2025 14:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-11 11:26:45.195812
- Title: APSQ: Additive Partial Sum Quantization with Algorithm-Hardware Co-Design
- Title(参考訳): APSQ:アルゴリズムとハードウェアの共設計による加算部分和量子化
- Authors: Yonghao Tan, Pingcheng Dong, Yongkun Wu, Yu Liu, Xuejiao Liu, Peng Luo, Shih-Yang Liu, Xijie Huang, Dong Zhang, Luhong Liang, Kwang-Ting Cheng,
- Abstract要約: 本研究は,PSUM蓄積を量子化フレームワークにシームレスに統合した新しい部分和量子化法(APSQ)を提案する。
APSQとPSUM量子化を組み合わせたグループ化戦略を提案する。
LLaMA2-7Bの実験は、大規模言語モデルにおけるAPSQの可能性を示している。
- 参考スコア(独自算出の注目度): 27.080781589233446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNN accelerators, significantly advanced by model compression and specialized dataflow techniques, have marked considerable progress. However, the frequent access of high-precision partial sums (PSUMs) leads to excessive memory demands in architectures utilizing input/weight stationary dataflows. Traditional compression strategies have typically overlooked PSUM quantization, which may account for 69% of power consumption. This study introduces a novel Additive Partial Sum Quantization (APSQ) method, seamlessly integrating PSUM accumulation into the quantization framework. A grouping strategy that combines APSQ with PSUM quantization enhanced by a reconfigurable architecture is further proposed. The APSQ performs nearly lossless on NLP and CV tasks across BERT, Segformer, and EfficientViT models while compressing PSUMs to INT8. This leads to a notable reduction in energy costs by 28-87%. Extended experiments on LLaMA2-7B demonstrate the potential of APSQ for large language models. Code is available at https://github.com/Yonghao-Tan/APSQ.
- Abstract(参考訳): モデル圧縮と特殊なデータフロー技術によって大幅に進歩したDNNアクセラレータは、かなりの進歩を遂げている。
しかし、高精度部分和(PSUM)の頻繁なアクセスは、入出力/重み付き定常データフローを利用するアーキテクチャにおいて過剰なメモリ要求を引き起こす。
従来の圧縮戦略ではPSUM量子化は見過ごされ、消費電力の69%を占める。
本研究は,PSUM蓄積を量子化フレームワークにシームレスに統合した新しい部分和量子化法(APSQ)を提案する。
さらに,APSQとPSUM量子化を組み合わせたグループ化戦略を提案する。
APSQは、PSUMをINT8に圧縮しながら、BERT、Segformer、EfficientViTモデルにわたるNLPおよびCVタスクでほぼ損失のない動作を行う。
これにより、エネルギーコストが28~87%減少する。
LLaMA2-7Bに関する拡張実験は、大規模言語モデルにおけるAPSQの可能性を示している。
コードはhttps://github.com/Yonghao-Tan/APSQ.comで入手できる。
関連論文リスト
- Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting [7.663974702092357]
本稿では,新たなVQパラダイムであるSign-Splitting VQ(SSVQ)を紹介する。
SSVQは従来のVQに比べて圧縮精度のトレードオフがかなり優れていることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:52:48Z) - PCGS: Progressive Compression of 3D Gaussian Splatting [55.149325473447384]
ガウスの量と品質を適応的に制御するPCGS(Progressive Compression of 3D Gaussian Splatting)を提案する。
全体として、PCGSは、SoTA非プログレッシブ手法に匹敵する圧縮性能を維持しながら、進行性を達成する。
論文 参考訳(メタデータ) (2025-03-11T15:01:11Z) - Accumulator-Aware Post-Training Quantization [3.8447712214412113]
本稿では,学習後量子化のためのアキュムレータ対応拡張フレームワークであるAXEを紹介する。
我々はAXEを一般化して、初めて多段階蓄積をサポートする。
本研究では,アキュムレータビット幅とモデル精度とのトレードオフを,ベースライン法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-09-25T16:58:35Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - An Empirical Study of Low Precision Quantization for TinyML [8.939851623894334]
モデルから低ビット(8ビット未満)の精度を小さなキャリブレーションデータで定量化するPTQアルゴリズムに着目する。
公平な比較を実現するため,最近のPTQアルゴリズムを解析するために,シミュレーション量子化フレームワークを構築した。
パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の鍵となる設計選択を明らかにする。
論文 参考訳(メタデータ) (2022-03-10T17:22:08Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs [13.446502051609036]
我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
論文 参考訳(メタデータ) (2021-09-09T12:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。