論文の概要: TurboBoA: Faster and Exact Attention-aware Quantization without Backpropagation
- arxiv url: http://arxiv.org/abs/2602.04929v1
- Date: Wed, 04 Feb 2026 09:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.55256
- Title: TurboBoA: Faster and Exact Attention-aware Quantization without Backpropagation
- Title(参考訳): TurboBoA: バックプロパゲーションなしで、より速く、正確に注意を意識した量子化
- Authors: Junhan Kim, Yeo Jeong Park, Seungwoo Son, Chungman Lee, Ho-young Kim, Joonyoung Kim, Yongkweon Jeon,
- Abstract要約: 本稿では,BoAの精度を保ちながら処理を著しく高速化する,バックプロパゲーションフリーのPTQアルゴリズムであるTurboBoAを提案する。
i)シーケンシャルボトルネックを低減し、3倍以上のスピードアップをもたらすクローズドフォームのエラー補償規則と、(ii)先行する量子化層から伝播するエラーの補正機構、(iii)座標偏差補正による適応グリッド計算により、繰り返し更新時のアライメントを維持する。
- 参考スコア(独自算出の注目度): 14.165250481321019
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid growth of large language models (LLMs) has heightened the importance of post-training quantization (PTQ) for reducing memory and computation costs. Among PTQ methods, GPTQ has gained significant attention for its efficiency, enabling billion-scale LLMs to be quantized within a few GPU hours. However, GPTQ's assumption of layer-wise independence leads to severe accuracy drops in low-bit regimes. Recently, BoA improved upon GPTQ by incorporating inter-layer dependencies within attention modules, but its reliance on sequential quantization across all out-channels makes it substantially less efficient. In this paper, we propose TurboBoA, a new backpropagation-free PTQ algorithm that preserves the accuracy benefits of BoA while significantly accelerating the process. The proposed TurboBoA introduces three key innovations: (i) joint quantization of multiple out-channels with a closed-form error compensation rule, which reduces sequential bottlenecks and yields more than a three-fold speedup; (ii) a correction mechanism for errors propagated from preceding quantized layers; and (iii) adaptive grid computation with coordinate descent refinement to maintain alignment during iterative updates. Extensive experiments demonstrate that TurboBoA delivers substantial acceleration over BoA while consistently improving accuracy. When combined with outlier suppression techniques, it achieves state-of-the-art results in both weight-only and weight-activation quantization. The code will be available at https://github.com/SamsungLabs/TurboBoA.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な成長により、メモリと計算コストの削減にPTQ(Post-training Quantization)の重要性が高まっている。
PTQの手法の中で、GPTQはその効率に大きな注目を集めており、数十億のLLMを数時間以内に量子化することができる。
しかし、GPTQの層単位での独立性の仮定は、低ビット状態において深刻な精度低下をもたらす。
近年、BoAはアテンションモジュールに層間依存関係を組み込むことでGPTQを改善したが、全ての外部チャネルにおけるシーケンシャル量子化に依存するため、効率は大幅に低下した。
本稿では,BoAの精度を保ちながら処理を著しく高速化するバックプロパゲーションフリーのPTQアルゴリズムであるTurboBoAを提案する。
提案されたTurboBoAは3つの重要なイノベーションを紹介している。
i) シーケンシャルなボトルネックを減らし、3倍以上のスピードアップをもたらすクローズドフォームエラー補償規則による複数の外部チャネルの連成量子化
二 先行量子化層から伝播した誤差の補正機構及び
三 反復更新時のアライメントを維持するために座標偏差補正を用いた適応格子計算。
広範囲な実験により、TurboBoAはBoAよりも大幅に加速し、精度は一貫して向上した。
降圧抑制技術と組み合わせると、重量のみの量子化と重量活性化の量子化の両方で最先端の結果が得られる。
コードはhttps://github.com/SamsungLabs/TurboBoA.comから入手できる。
関連論文リスト
- ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference [13.283581083797484]
後学習量子化(PTQ)は、Large Language Models(LLM)の重みを低精度表現に圧縮し、メモリフットプリントを減らし、推論を加速する。
重みとアクティベーションにおける外れ値の存在は、しばしば大きな量子化誤差と深刻な精度低下をもたらす。
Pairwise Rotation Quantization (ParoQuant) を提案する。
ParoQuantは平均2.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-11-13T18:59:24Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - FBQuant: FeedBack Quantization for Large Language Models [13.545647487024864]
自動制御における負のフィードバック機構にインスパイアされた新しいアプローチであるFeedBack Quantization (FBQuant)を提案する。
FBQuantは本質的に、再構成された重量が量子化によって束縛されることを保証し、過剰適合のリスクを低減する。
3ビットのLlama2-7Bでは、FBQuantはゼロショット精度を1.2%向上させる。
論文 参考訳(メタデータ) (2025-01-25T06:04:07Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。