論文の概要: Attention-aware Post-training Quantization without Backpropagation
- arxiv url: http://arxiv.org/abs/2406.13474v1
- Date: Wed, 19 Jun 2024 11:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 19:53:21.035750
- Title: Attention-aware Post-training Quantization without Backpropagation
- Title(参考訳): バックプロパゲーションを伴わない注意型後学習量子化
- Authors: Junhan Kim, Ho-young Kim, Eulrang Cho, Chungman Lee, Joonyoung Kim, Yongkweon Jeon,
- Abstract要約: 量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
既存の量子化アプローチは勾配に基づく最適化に依存している。
バックプロパゲーションに頼らずに層間依存関係を考慮した新しいPTQアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.096116957844014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Quantization is a promising solution for deploying large-scale language models (LLMs) on resource-constrained devices. Existing quantization approaches, however, rely on gradient-based optimization, regardless of it being post-training quantization (PTQ) or quantization-aware training (QAT), which becomes problematic for hyper-scale LLMs with billions of parameters. This overhead can be alleviated via recently proposed backpropagation-free PTQ methods; however, their performance is somewhat limited by their lack of consideration of inter-layer dependencies. In this paper, we thus propose a novel PTQ algorithm that considers inter-layer dependencies without relying on backpropagation. The fundamental concept involved is the development of attention-aware Hessian matrices, which facilitates the consideration of inter-layer dependencies within the attention module. Extensive experiments demonstrate that the proposed algorithm significantly outperforms conventional PTQ methods, particularly for low bit-widths.
- Abstract(参考訳): 量子化は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。
しかし、既存の量子化アプローチは、ポストトレーニング量子化(PTQ)や量子化認識訓練(QAT)によらず、勾配に基づく最適化に依存している。
このオーバーヘッドは、最近提案されたバックプロパゲーションフリーのPTQメソッドによって軽減することができるが、層間依存関係の考慮が欠如しているため、その性能は若干制限されている。
本論文では,バックプロパゲーションに頼らずに層間依存関係を考慮した新しいPTQアルゴリズムを提案する。
基本的な概念は注意を意識したヘッセン行列の開発であり、注意モジュール内の層間依存関係の考慮を容易にする。
大規模な実験により,提案アルゴリズムは従来のPTQ法,特に低ビット幅において著しく優れていた。
関連論文リスト
- PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models [13.709080134204326]
トレーニング後の量子化(PTQ)は、リソース制限設定内に大規模な言語モデルをデプロイする上で重要な要素である。
本稿では,グラフニューラルネットワーク (GNN) モジュールを用いて重み間の依存関係をキャプチャする混合精度グラフニューラルPTQ (MG-PTQ) 手法を提案する。
本手法は, 目標重み間の依存性をより効果的に把握し, 重みの重要性をより正確に評価する。
論文 参考訳(メタデータ) (2025-01-30T05:39:01Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。
本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers [10.566264033360282]
ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z) - End-to-end resource analysis for quantum interior point methods and portfolio optimization [63.4863637315163]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。
アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文 参考訳(メタデータ) (2022-11-22T18:54:48Z) - Parameter-Parallel Distributed Variational Quantum Algorithm [7.255056332088222]
変分量子アルゴリズム(VQA)は、ノイズの多いデバイス上での実用的な量子優位性を探究するための有望な短期的手法として登場した。
本稿では,パラメータ並列分散変動量子アルゴリズム(PPD-VQA)を提案する。
この結果から,PSD-VQAは大規模実ワードアプリケーションを扱うために複数の量子プロセッサをコーディネートする実用的なソリューションを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2022-07-31T15:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。