論文の概要: ROSAQ: Rotation-based Saliency-Aware Weight Quantization for Efficiently Compressing Large Language Models
- arxiv url: http://arxiv.org/abs/2506.13472v1
- Date: Mon, 16 Jun 2025 13:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.502179
- Title: ROSAQ: Rotation-based Saliency-Aware Weight Quantization for Efficiently Compressing Large Language Models
- Title(参考訳): ROSAQ:大規模言語モデルの効率的な圧縮のための回転型サリエンシ対応重み量子化
- Authors: Junho Yoon, Geom Lee, Donghyeon Jeon, Inho Kang, Seung-Hoon Na,
- Abstract要約: 回転型サリエンシ対応重み量子化(ROSAQ)を提案する。
ROSAQは、プロジェクション特徴空間において、元の特徴空間ではなく、健全なチャネルを特定する。
カーネルの融合により、ROSAQはFP16の実装よりも約2.3倍スピードアップし、バッチサイズ64の256トークンを生成する。
- 参考スコア(独自算出の注目度): 10.130683277910988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization has been widely studied as an effective technique for reducing the memory requirement of large language models (LLMs), potentially improving the latency time as well. Utilizing the characteristic of rotational invariance of transformer, we propose the rotation-based saliency-aware weight quantization (ROSAQ), which identifies salient channels in the projection feature space, not in the original feature space, where the projected "principal" dimensions are naturally considered as "salient" features. The proposed ROSAQ consists of 1) PCA-based projection, which first performs principal component analysis (PCA) on a calibration set and transforms via the PCA projection, 2) Salient channel dentification, which selects dimensions corresponding to the K-largest eigenvalues as salient channels, and 3) Saliency-aware quantization with mixed-precision, which uses FP16 for salient dimensions and INT3/4 for other dimensions. Experiment results show that ROSAQ shows improvements over the baseline saliency-aware quantization on the original feature space and other existing quantization methods. With kernel fusion, ROSAQ presents about 2.3x speed up over FP16 implementation in generating 256 tokens with a batch size of 64.
- Abstract(参考訳): 量子化は、大きな言語モデル(LLM)のメモリ要求を減らす効果的な手法として広く研究され、レイテンシー時間も改善されている。
変圧器の回転不変性の特徴を生かして,原特徴空間ではなく投影特徴空間内の有意なチャネルを同定する回転型塩分量量子化法(ROSAQ)を提案する。
提案されたROSAQは
1)PCAをベースとしたプロジェクションは、まずキャリブレーションセット上で主成分分析を行い、PCAプロジェクションを介して変換する。
2)K大固有値に対応する寸法を正チャネルとして選択する正チャネル密度化,及び
3) FP16 を正次元とし、INT3/4 を他の次元に用いた混合精度の有価値量子化。
実験結果から,ROSAQは,元の特徴空間と既存の量子化手法に基づいて,基準値の正当性を考慮した量子化よりも改善したことを示す。
カーネルの融合により、ROSAQはFP16の実装よりも約2.3倍スピードアップし、バッチサイズ64の256トークンを生成する。
関連論文リスト
- FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design [5.4815337424005355]
視覚自己回帰(VAR)モデリングは、次世代の予測から次世代の予測へ、画像生成のパラダイムシフトを象徴している。
メモリと計算コストを削減するため、VARのための効率的な後学習浮動小数点(FP)量子化フレームワークであるFPQvarを提案する。
AMD-Xilinx VCK190 FPGA上の我々のアクセラレータは、整数ベースのアクセラレータよりも3.1倍高い1.1イメージ/sのスループットを達成する。
論文 参考訳(メタデータ) (2025-05-22T07:47:51Z) - Precision Neural Network Quantization via Learnable Adaptive Modules [27.323901068182234]
量子化アウェアトレーニング(QAT)は、モデルサイズを圧縮し、運用効率を向上させるニューラルネットワーク量子化技術である。
本稿では、適応ステップサイズ量子化(ASQ)と呼ばれる、効果的な学習可能な適応型ニューラルネットワーク量子化法を提案する。
論文 参考訳(メタデータ) (2025-04-24T05:46:25Z) - Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。
DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。
入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文 参考訳(メタデータ) (2023-08-25T17:28:58Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - TopGen: Topology-Aware Bottom-Up Generator for Variational Quantum
Circuits [26.735857677349628]
変分量子アルゴリズム(VQA)は、短期デバイスに量子上の利点を示すことを約束している。
パラメータ化ゲートを持つ変分回路であるアンサッツの設計は、VQAにとって最重要となる。
トポロジ固有のアンザッツを生成するボトムアップ手法を提案する。
論文 参考訳(メタデータ) (2022-10-15T04:18:41Z) - Ray-based framework for state identification in quantum dot devices [0.0]
多次元パラメータ空間におけるデバイス応答の1次元投影に依存する計測手法を提案する。
レイベース分類(RBC)フレームワークとして、この機械学習(ML)アプローチを使用して、QD状態の分類器を実装します。
RBCは画像に基づく分類手法の実験的実装から82%の精度ベンチマークを超越していることを示す。
論文 参考訳(メタデータ) (2021-02-23T16:38:05Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。