論文の概要: Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition
- arxiv url: http://arxiv.org/abs/2506.02077v1
- Date: Mon, 02 Jun 2025 09:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.899147
- Title: Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition
- Title(参考訳): 最適重量分解に向けての量子化および低ランク行列への個別の役割の割り当て
- Authors: Yoonjun Cho, Soeun Kim, Dongjae Jeon, Kyelim Lee, Beomsoo Lee, Albert No,
- Abstract要約: 我々は,低ランク成分をアクティベーションに敏感な重みを捕捉する特定の役割に割り当てる,ODLRI(Outlier-Driven Low-Rank Initialization)を導入する。
Llama2 (7B, 13B, 70B)、Llama3-8B、Mistral-7Bの実験は、ODLRIが一貫してアクティベーション・アウェア・エラーを低減し、量子化スケールを最小化し、低ビット設定におけるパープレキシティとゼロショット精度を改善することを示した。
- 参考スコア(独自算出の注目度): 4.119890956388359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decomposing weight matrices into quantization and low-rank components ($\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$) is a widely used technique for compressing large language models (LLMs). Existing joint optimization methods iteratively alternate between quantization and low-rank approximation. However, these methods tend to prioritize one component at the expense of the other, resulting in suboptimal decompositions that fail to leverage each component's unique strengths. In this work, we introduce Outlier-Driven Low-Rank Initialization (ODLRI), which assigns low-rank components the specific role of capturing activation-sensitive weights. This structured decomposition mitigates outliers' negative impact on quantization, enabling more effective balance between quantization and low-rank approximation. Experiments on Llama2 (7B, 13B, 70B), Llama3-8B, and Mistral-7B demonstrate that incorporating ODLRI into the joint optimization framework consistently reduces activation-aware error, minimizes quantization scale, and improves perplexity and zero-shot accuracy in low-bit settings.
- Abstract(参考訳): 重み行列を量子化と低ランク成分(\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$)に分解することは、大きな言語モデル(LLM)を圧縮するのに広く用いられる技法である。
既存の共同最適化手法は、量子化と低ランク近似を反復的に交互に交互に行う。
しかしながら、これらの手法は一方のコンポーネントを犠牲にして優先順位付けする傾向があり、結果として各コンポーネントの固有の強みを生かさない最適未満の分解が生じる。
本稿では,低ランクなコンポーネントをアクティベーションに敏感な重みを捉える役割を割り当てる,ODLRI(Outlier-Driven Low-Rank Initialization)を紹介する。
この構造的分解は、量子化に対する外部の負の影響を緩和し、量子化と低ランク近似のより効果的なバランスを可能にする。
Llama2 (7B, 13B, 70B)、Llama3-8B、Mistral-7Bの実験では、ODLRIを共同最適化フレームワークに組み込むことで、アクティベーション・アウェア・エラーを一貫して低減し、量子化スケールを最小化し、低ビット設定でのパープレキシティとゼロショット精度を向上させる。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。
本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文 参考訳(メタデータ) (2025-02-02T20:23:32Z) - ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。
ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文 参考訳(メタデータ) (2024-11-12T12:52:04Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化(PTQ)は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。
階層間依存関係を考慮し整数重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。