論文の概要: QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy
- arxiv url: http://arxiv.org/abs/2606.04620v1
- Date: Wed, 03 Jun 2026 08:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.641893
- Title: QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy
- Title(参考訳): QuBLAST:ブロックレベル圧縮アプローチとアクティベーションスケーリング戦略による大規模言語モデルの定量化フレームワーク
- Authors: Pasindu Wickramasinghe, Achyuta Muthuvelan, Rachmad Vidya Wicaksana Putra, Minghao Shao, Muhammad Shafique,
- Abstract要約: QuBLASTは、LCMのアクティベーションスケーリング戦略を備えたブロックレベルの圧縮手法である。
異なるモデルアーキテクチャでモデルサイズを40%から45.2%削減する。
WikiText-2とWikiText-103データセットのパフォーマンスは、5%のパープレキシティ向上で維持されている。
- 参考スコア(独自算出の注目度): 4.215434651178227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have become the state-of-the-art algorithms for solving NLP tasks. However, they typically come at huge computational and memory costs, thus making them difficult to deploy on embedded systems. Toward this, state-of-the-art methods typically employ uniform post-training quantization (PTQ) across attention blocks of the network, hence overlooking the potential of applying different quantization levels in the same network. They also employ complex operations to mitigate the negative impact of activation outliers, hence incurring high computational overheads. Moreover, they have not considered evaluation using emerging LLMs with non-conventional attention architectures (e.g., state-space models), which pose different challenges in applying quantization. To address these limitations, we propose QuBLAST, a novel PTQ methodology that employs block-level compression approach with activation scaling strategy for LLMs. Block-level compression approach enables mixed-precision quantization across blocks of the network, while activation scaling strategy efficiently mitigates the negative impact of activation outliers. Specifically, QuBLAST first analyzes the sensitivity of different attention blocks in the pre-trained model through the cross-entropy loss analysis. QuBLAST leverages this sensitivity analysis to determine the weight quantization level for each attention block in the model. Furthermore, QuBLAST employs the activation scaling map for each block to control the range of activation values and mitigate the negative impact of activation outliers, thereby enabling better quantization results. Experimental results show that, QuBLAST reduces model sizes by 40%-45.2% across different model architectures (i.e., Qwen3-8B, Llama3-8B, Mistral v0.1-8B, and Falcon H1R-7B), while maintaining the performance within 5% perplexity increase for the WikiText-2 and WikiText-103 datasets.
- Abstract(参考訳): LLMはNLPタスクを解くための最先端のアルゴリズムとなっている。
しかし、それらは一般的に計算とメモリのコストが大きいため、組み込みシステムへのデプロイが困難になる。
これに向けて、最先端の手法では、通常、ネットワークの注意ブロックをまたいだ均一なポストトレーニング量子化(PTQ)を用いるため、同じネットワークに異なる量子化レベルを適用する可能性を見越すことができる。
また、アクティベーション・アウトレイアの負の影響を軽減するために複雑な演算を用い、高い計算オーバーヘッドを発生させる。
さらに,非伝統的な注意アーキテクチャ(例えば状態空間モデル)を持つ新興LLMを用いた評価を考慮せず,量子化の適用において異なる課題を提起している。
これらの制約に対処するために,ブロックレベルの圧縮手法とLCMのアクティベーションスケーリング戦略を用いた新しいPTQ手法QuBLASTを提案する。
ブロックレベルの圧縮アプローチは、ネットワークのブロック間での混合精度量子化を可能にし、アクティベーションスケーリング戦略は、アクティベーションアウトリーの負の影響を効果的に軽減する。
具体的には、QuBLASTはまず、クロスエントロピー損失分析により、事前学習されたモデルにおける異なる注意ブロックの感度を分析する。
QuBLASTはこの感度分析を利用して、モデル内の各注目ブロックの重量量子化レベルを決定する。
さらに、QuBLASTでは、各ブロックに対してアクティベーションスケーリングマップを使用して、アクティベーション値の範囲を制御し、アクティベーションアウトリアの負の影響を軽減することにより、より優れた量子化結果を実現する。
実験の結果、QuBLASTは異なるモデルアーキテクチャ(Qwen3-8B、Llama3-8B、Mistral v0.1-8B、Falcon H1R-7B)でモデルサイズを40%-45.2%削減し、WikiText-2とWikiText-103データセットでは5%の複雑さで性能を向上した。
関連論文リスト
- Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients [36.01708036519368]
大規模視覚言語モデル (LVLM) は、マルチモーダル相互作用を必要とする下流タスクにおいて、顕著な成功を収めた。
既存のLVLM量子化法は、複雑なクロストークン相互作用を捉えるのに失敗するモダリティレベルでトークン感度を測定する。
機械的解釈可能性における公理的帰属に着想を得て、量子化対応統合勾配(QIG)の微粒化量子化戦略を導入する。
提案手法はLLaVA-onevision-7Bの平均精度を1.60%向上させ,LLaVA-onevision-7Bの完全精度とのギャップを1.33%に短縮する。
論文 参考訳(メタデータ) (2026-03-18T15:03:43Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Interactions Across Blocks in Post-Training Quantization of Large Language Models [34.32577674735222]
トレーニング後の量子化は、ニューラルネットワークの計算要求を減らすために広く利用されている。
2つのマルチブロック微調整戦略を導入し、それらを微細調整単一変圧器ブロックのベースラインと比較する。
これらの手法の有効性は,特定のネットワークモデルに依存することが示唆された。
論文 参考訳(メタデータ) (2024-11-06T14:11:39Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。