論文の概要: Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition
- arxiv url: http://arxiv.org/abs/2506.02077v1
- Date: Mon, 02 Jun 2025 09:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.899147
- Title: Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition
- Title(参考訳): 最適重量分解に向けての量子化および低ランク行列への個別の役割の割り当て
- Authors: Yoonjun Cho, Soeun Kim, Dongjae Jeon, Kyelim Lee, Beomsoo Lee, Albert No,
- Abstract要約: 我々は,低ランク成分をアクティベーションに敏感な重みを捕捉する特定の役割に割り当てる,ODLRI(Outlier-Driven Low-Rank Initialization)を導入する。
Llama2 (7B, 13B, 70B)、Llama3-8B、Mistral-7Bの実験は、ODLRIが一貫してアクティベーション・アウェア・エラーを低減し、量子化スケールを最小化し、低ビット設定におけるパープレキシティとゼロショット精度を改善することを示した。
- 参考スコア(独自算出の注目度): 4.119890956388359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decomposing weight matrices into quantization and low-rank components ($\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$) is a widely used technique for compressing large language models (LLMs). Existing joint optimization methods iteratively alternate between quantization and low-rank approximation. However, these methods tend to prioritize one component at the expense of the other, resulting in suboptimal decompositions that fail to leverage each component's unique strengths. In this work, we introduce Outlier-Driven Low-Rank Initialization (ODLRI), which assigns low-rank components the specific role of capturing activation-sensitive weights. This structured decomposition mitigates outliers' negative impact on quantization, enabling more effective balance between quantization and low-rank approximation. Experiments on Llama2 (7B, 13B, 70B), Llama3-8B, and Mistral-7B demonstrate that incorporating ODLRI into the joint optimization framework consistently reduces activation-aware error, minimizes quantization scale, and improves perplexity and zero-shot accuracy in low-bit settings.
- Abstract(参考訳): 重み行列を量子化と低ランク成分(\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$)に分解することは、大きな言語モデル(LLM)を圧縮するのに広く用いられる技法である。
既存の共同最適化手法は、量子化と低ランク近似を反復的に交互に交互に行う。
しかしながら、これらの手法は一方のコンポーネントを犠牲にして優先順位付けする傾向があり、結果として各コンポーネントの固有の強みを生かさない最適未満の分解が生じる。
本稿では,低ランクなコンポーネントをアクティベーションに敏感な重みを捉える役割を割り当てる,ODLRI(Outlier-Driven Low-Rank Initialization)を紹介する。
この構造的分解は、量子化に対する外部の負の影響を緩和し、量子化と低ランク近似のより効果的なバランスを可能にする。
Llama2 (7B, 13B, 70B)、Llama3-8B、Mistral-7Bの実験では、ODLRIを共同最適化フレームワークに組み込むことで、アクティベーション・アウェア・エラーを一貫して低減し、量子化スケールを最小化し、低ビット設定でのパープレキシティとゼロショット精度を向上させる。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - IMPACT: Importance-Aware Activation Space Reconstruction [5.487612141214714]
大規模言語モデル(LLM)は、多くのドメインにわたって高いパフォーマンスを達成するが、リソース制約のある設定では、そのサイズのためデプロイが困難である。
本稿では, モデル圧縮決定とモデル動作への影響を関連付ける, 重要度に配慮したアクティベーション再構築のためのフレームワークであるIMPACTを提案する。
多様なモデルやタスクにわたる実験により、IMPACTは最先端のベースラインに匹敵する精度で最大48.6%のモデルサイズ縮小を達成した。
論文 参考訳(メタデータ) (2025-07-04T22:26:33Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。
本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文 参考訳(メタデータ) (2025-02-02T20:23:32Z) - ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。
ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文 参考訳(メタデータ) (2024-11-12T12:52:04Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。
WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化(PTQ)は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。
階層間依存関係を考慮し整数重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。