論文の概要: Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free
- arxiv url: http://arxiv.org/abs/2505.03810v1
- Date: Fri, 02 May 2025 11:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.832391
- Title: Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free
- Title(参考訳): Grouped Sequency-arranged Rotation: 自由な量子化のための回転変換の最適化
- Authors: Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo,
- Abstract要約: 本稿では,現行手法の限界に対処する改良された回転行列を構築するための,新しい学習自由な手法を提案する。
主な貢献は、量子化誤差を減らすために類似の周波数成分をクラスタリングする順序順序付けによるウォルシュ・アダマール変換の活用である。
本手法は,WikiText-2上での推論タスクとパープレキシティ(PPL)スコアに頑健な性能を示す。
- 参考スコア(独自算出の注目度): 5.074812070492738
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) face deployment challenges due to high computational costs, and while Post-Training Quantization (PTQ) offers a solution, existing rotation-based methods struggle at very low bit-widths like 2-bit. We introduce a novel, training-free approach to construct an improved rotation matrix, addressing the limitations of current methods. The key contributions include leveraging the Walsh-Hadamard transform with sequency ordering, which clusters similar frequency components to reduce quantization error compared to standard Hadamard matrices, significantly improving performance. Furthermore, we propose a Grouped Sequency-arranged Rotation (GSR) using block-diagonal matrices with smaller Walsh blocks, effectively isolating outlier impacts and achieving performance comparable to optimization-based methods without requiring any training. Our method demonstrates robust performance on reasoning tasks and Perplexity (PPL) score on WikiText-2. Our method also enhances results even when applied over existing learned rotation techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)は高い計算コストのためにデプロイメントの課題に直面し、PTQ(Post-Training Quantization)はソリューションを提供するが、既存のローテーションベースのメソッドは2ビットのような非常に低ビット幅で苦労する。
本稿では,現行手法の限界に対処する改良された回転行列を構築するための,新しい学習自由な手法を提案する。
主要な貢献は、標準的なアダマール行列と比較して量子化誤差を低減するために類似の周波数成分をクラスタ化するシークエンス順序付けによるウォルシュ・アダマール変換の活用であり、性能が大幅に向上した。
さらに,より小さなWalshブロックを持つブロック対角行列を用いた群列配置回転(GSR)を提案する。
本手法は,WikiText-2上での推論タスクとパープレキシティ(PPL)スコアに頑健な性能を示す。
また,本手法は,既存の学習回転技術に対して適用した場合にも効果が向上する。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Robust PCA Based on Adaptive Weighted Least Squares and Low-Rank Matrix Factorization [2.983818075226378]
本稿では,初期コンポーネント不安定時の適応重み係数更新を統合する新しいRPCAモデルを提案する。
提案手法は既存の非インスパイアされた正規化手法よりも優れた性能と効率を提供する。
論文 参考訳(メタデータ) (2024-12-19T08:31:42Z) - Multiple Rotation Averaging with Constrained Reweighting Deep Matrix Factorization [22.487393413405954]
コンピュータビジョンとロボティクス領域では、複数の回転平均化が重要な役割を果たす。
本稿では,データパターンを学習方法でマイニングするための効率的な回転平均化手法を提案する。
論文 参考訳(メタデータ) (2024-09-15T16:50:27Z) - DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs [40.48697728884967]
大規模言語モデル(LLM)の量子化は、特に外部アクティベーションの存在により、大きな課題に直面している。
伝統的なアプローチは、比較的大きな大きさの全てのトークンをまたいだ活性化であるノーマル・アウトリエに主に対応している。
DuQuantは回転変換と置換変換を利用して、大量および正常な外れ値の両方をより効果的に緩和する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-03T18:27:44Z) - Variable Substitution and Bilinear Programming for Aligning Partially Overlapping Point Sets [48.1015832267945]
本研究では,RPMアルゴリズムの最小化目的関数を用いて要求を満たす手法を提案する。
分岐とバウンド(BnB)アルゴリズムが考案され、パラメータのみに分岐し、収束率を高める。
実験による評価は,非剛性変形,位置雑音,外れ値に対する提案手法の高剛性を示す。
論文 参考訳(メタデータ) (2024-05-14T13:28:57Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Givens Coordinate Descent Methods for Rotation Matrix Learning in
Trainable Embedding Indexes [19.716527782586788]
回転行列を学習するためのブロックアジェンダ座標降下アルゴリズムのファミリーを提案する。
最先端のSVD法と比較して、Givensアルゴリズムははるかに並列化可能である。
論文 参考訳(メタデータ) (2022-03-09T22:58:56Z) - ART-Point: Improving Rotation Robustness of Point Cloud Classifiers via
Adversarial Rotation [89.47574181669903]
本研究では, 点雲分類器の回転ロバスト性も, 対角訓練により得られることを示す。
具体的には、ART-Pointというフレームワークは、ポイントクラウドの回転を攻撃と見なしている。
最終的なロバストモデルに効率よく到達するために,高速なワンステップ最適化を提案する。
論文 参考訳(メタデータ) (2022-03-08T07:20:16Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。