Fugu-MT 論文翻訳(概要): CBQ: Cross-Block Quantization for Large Language Models

論文の概要: CBQ: Cross-Block Quantization for Large Language Models

arxiv url: http://arxiv.org/abs/2312.07950v1
Date: Wed, 13 Dec 2023 07:56:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 16:25:04.652615
Title: CBQ: Cross-Block Quantization for Large Language Models
Title（参考訳）: CBQ:大規模言語モデルのためのクロスブロック量子化
Authors: Xin Ding, Xiaoyu Liu, Yun Zhang, Zhijun Tu, Wei Li, Jie Hu, Hanting Chen, Yehui Tang, Zhiwei Xiong, Baoqun Yin, Yunhe Wang
Abstract要約: ポストトレーニング量子化(PTQ)は、超低コストで効率的な大規模言語モデル(LLM)を作成することに注意を向けている。近年,浮動小数点モデルと量子化モデルの間のブロックワイズ再構成による量子化パラメータの最適化が試みられている。これらの手法は, 独立ブロック量子化による誤差の累積化と, 極端な重み付けとアクティベーション異常による復元困難という2つの課題に悩まされる。
参考スコア（独自算出の注目度）: 68.81014196165168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Post-training quantization (PTQ) has driven attention to producing efficient large language models (LLMs) with ultra-low costs. Since hand-craft quantization parameters lead to low performance in low-bit quantization, recent methods optimize the quantization parameters through block-wise reconstruction between the floating-point and quantized models. However, these methods suffer from two challenges: accumulated errors from independent one-by-one block quantization and reconstruction difficulties from extreme weight and activation outliers. To address these two challenges, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. To reduce error accumulation, we introduce a cross-block dependency with the aid of a homologous reconstruction scheme to build the long-range dependency between adjacent multi-blocks with overlapping. To reduce reconstruction difficulty, we design a coarse-to-fine pre-processing (CFP) to truncate weight outliers and dynamically scale activation outliers before optimization, and an adaptive rounding scheme, called LoRA-Rounding, with two low-rank learnable matrixes to further rectify weight quantization errors. Extensive experiments demonstrate that: (1) CBQ pushes both activation and weight quantization to low-bit settings W4A4, W4A8, and W2A16. (2) CBQ achieves better performance than the existing state-of-the-art methods on various LLMs and benchmark datasets.
Abstract（参考訳）: ポストトレーニング量子化(PTQ)は、超低コストで効率的な大規模言語モデル(LLM)を作成することに注意を向けている。ハンドクラフト量子化パラメータは低ビット量子化において低い性能をもたらすため、最近の手法では浮動小数点モデルと量子化モデルの間のブロックワイド再構成により量子化パラメータを最適化する。しかし、これらの手法は、独立ブロック量子化による累積誤差と、極端な重み付けとアクティベーションアウトリーによる再構成困難の2つの課題に悩まされている。これら2つの課題に対処するために,ブロック間再構成に基づくLPMのためのPTQ手法CBQを提案する。誤りの蓄積を減らすために,重複を伴う隣接マルチブロック間の長距離依存性を構築するための相同的再構成スキームを用いて,クロスブロック依存性を導入する。復元の難易度を低減すべく,最適化前の重量外乱と動的にスケールする活性化外乱を解消する粗粒度前処理(cfp)と,低ランク学習可能な行列を2つ備えたlora-roundingと呼ばれる適応丸め方式を設計,重量量子化誤差をさらに修正する。 1)CBQは活性化と重量量子化の両方を低ビット設定W4A4、W4A8、W2A16にプッシュする。 2) CBQ は,様々な LLM およびベンチマークデータセット上で,既存の最先端手法よりも優れた性能を実現する。

関連論文リスト

Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations [22.127873567034825]
大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。既存の手法では、NF4やAF4といったブロックワイド量子化技術がネットワーク重みに適用されている。これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
論文参考訳（メタデータ） (2025-05-10T14:00:15Z)
Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文参考訳（メタデータ） (2025-05-08T00:08:31Z)
Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
学習後の量子化は、大規模な言語モデル(LLM)を再学習せずに圧縮する手法として広く使われている。層間の量子化誤差の蓄積は、特に低ビット状態において、性能を著しく低下させる。本稿では,QEP(Quantization Error propagation)を提案する。QEP(Quantization Error propagation)は,QEP(Quantization Error propagation)を明示的に伝播させることにより,レイヤワイドPTQを強化する軽量で汎用的なフレームワークである。
論文参考訳（メタデータ） (2025-04-13T15:56:00Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference [8.136601122570347]
後学習量子化(PTQ)は、より大きな言語モデル(LLM)のストレージと計算要求を、追加のトレーニングコストなしで削減するための有望なアプローチである。最近のPTQ研究は、主に8ビット以上の活性化を維持しながら、重量のみを8ビット未満に定量化することに焦点を当てている。
論文参考訳（メタデータ） (2025-02-07T23:06:03Z)
ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。 ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-18T22:01:55Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。既存の量子化アプローチは勾配に基づく最適化に依存している。バックプロパゲーションに頼らずに層間依存関係を考慮した新しいPTQアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T11:53:21Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文参考訳（メタデータ） (2024-04-04T17:25:30Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合し,量子化誤差を効果的に低減する手法であるL4Qを提案する。メモリ最適化層設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、完全な量子化重みを生成する。
論文参考訳（メタデータ） (2024-02-07T14:35:05Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
BRECQ: Pushing the Limit of Post-Training Quantization by Block Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文参考訳（メタデータ） (2021-02-10T13:46:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。