論文の概要: QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
- arxiv url: http://arxiv.org/abs/2509.17428v1
- Date: Mon, 22 Sep 2025 07:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.261828
- Title: QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
- Title(参考訳): QWHA:大規模言語モデルにおけるパラメータ効率の良い微調整のための量子化を考慮したウォルシュ・アダマール適応
- Authors: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim,
- Abstract要約: 本稿では,Walsh-Hadamard Transform (WHT) を変換カーネルとして利用することにより,FTベースのアダプタを量子化モデルに統合する手法を提案する。
我々はQWHAが微調整を容易にしながら量子化誤差を効果的に軽減し,その設計によって計算コストを大幅に削減できることを実証した。
- 参考スコア(独自算出の注目度): 14.492535012602625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The demand for efficient deployment of large language models (LLMs) has driven interest in quantization, which reduces inference cost, and parameter-efficient fine-tuning (PEFT), which lowers training overhead. This motivated the development of quantization-aware PEFT to produce accurate yet efficient quantized models. In this setting, reducing quantization error prior to fine-tuning is crucial for achieving high model accuracy. However, existing methods that rely on low-rank adaptation suffer from limited representational capacity. Recent Fourier-related transform (FT)-based adapters offer greater representational power than low-rank adapters, but their direct integration into quantized models often results in ineffective error reduction and increased computational overhead. To overcome these limitations, we propose QWHA, a method that integrates FT-based adapters into quantized models by employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together with a novel adapter initialization scheme incorporating adaptive parameter selection and value refinement. We demonstrate that QWHA effectively mitigates quantization errors while facilitating fine-tuning, and that its design substantially reduces computational cost. Experimental results show that QWHA consistently outperforms baselines in low-bit quantization accuracy and achieves significant training speedups over existing FT-based adapters. The code is available at https://github.com/vantaa89/qwha.
- Abstract(参考訳): 大規模言語モデル(LLM)の効率的なデプロイの需要は、推論コストを削減する量子化と、トレーニングオーバーヘッドを低減させるパラメータ効率の微調整(PEFT)への関心を惹き付けている。
これにより、量子化を意識したPEFTが開発され、正確で効率的な量子化モデルが開発された。
この設定では、微調整前における量子化誤差の低減がモデル精度の向上に不可欠である。
しかしながら、ローランク適応に依存する既存の手法は、表現能力の制限に悩まされている。
近年のFourier-related transform (FT) ベースのアダプタは低ランクアダプタよりも表現力が高いが、量子化モデルへの直接統合は誤りの低減と計算オーバーヘッドの増大をもたらすことが多い。
これらの制限を克服するために、適応パラメータ選択と値改善を取り入れた新しいアダプタ初期化スキームとともに、WHT(Walsh-Hadamard Transform)を変換カーネルとして使用することにより、FTベースのアダプタを量子化モデルに統合するQWHAを提案する。
我々はQWHAが微調整を容易にしながら量子化誤差を効果的に軽減し,その設計によって計算コストを大幅に削減できることを実証した。
実験の結果、QWHAは低ビット量子化精度でベースラインを一貫して上回り、既存のFTベースのアダプタに比べてトレーニング速度が大幅に向上することがわかった。
コードはhttps://github.com/vantaa89/qwha.comから入手できる。
関連論文リスト
- How Can Quantum Deep Learning Improve Large Language Models? [24.83900854986565]
完全な微調整は高い性能を達成するが、計算とメモリのコストを禁ずる。
ローランク適応(LoRA)、プリフィックスチューニング(Prefix tuning)、スパースローランク適応(SoRA)は、競争精度を維持しながらトレーニング可能なパラメータを減らすことでこの問題に対処する。
量子深層学習の最近の進歩は、量子インスパイアされた符号化とパラメータ化量子回路を通じて新しい機会をもたらす。
論文 参考訳(メタデータ) (2025-09-17T08:18:58Z) - ZeroQAT: Your Quantization-aware Training but Efficient [53.25965863436039]
量子化は、大規模言語モデル(LLM)のデプロイメントコストを削減する効果的な手法である。
既存の低ビットPTQ法は, 局所再構成目標と下流性能の相違による累積誤差の伝搬と誤調整が生じるため, 精度劣化に悩まされる。
我々は,ゼロオーダー最適化に基づくQATフレームワークZeroQATを提案する。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models [2.867517731896504]
SQFTは、大規模事前学習モデルの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションである。
SQFTは資源制約のある環境で効果的なモデル操作を可能にする。
SQFTはまた、異なる数値精度の量子化重みとアダプタを持つという課題にも対処している。
論文 参考訳(メタデータ) (2024-10-01T19:49:35Z) - Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance [20.659750151408186]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
パラメータ量子化とローランド適応(LoRA)を組み合わせた既存ソリューション
QA-BLoRA(Quantization-Aware Fine-tuning with Balanced Low-Rank Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-07-24T06:16:37Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。
メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。
この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。