論文の概要: Revisiting Adaptive Rounding with Vectorized Reparameterization for LLM Quantization
- arxiv url: http://arxiv.org/abs/2602.02151v1
- Date: Mon, 02 Feb 2026 14:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.206843
- Title: Revisiting Adaptive Rounding with Vectorized Reparameterization for LLM Quantization
- Title(参考訳): LLM量子化のためのベクトル化再パラメータ化による適応ラウンドの再検討
- Authors: Yuli Zhou, Qingxuan Chen, Luca Benini, Guolei Sun, Yawei Li,
- Abstract要約: VQRoundは適応的なラウンドリングのためのパラメータ効率の最適化フレームワークである。
VQRoundは、従来の適応型ラウンドリングよりも、同じステップ数でよりよく収束することを示す。
以上の結果から,適応型ラウンドリングは,スケーラブルかつ高速に実現可能であることが示唆された。
- 参考スコア(独自算出の注目度): 23.4275219098363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive Rounding has emerged as an alternative to round-to-nearest (RTN) for post-training quantization by enabling cross-element error cancellation. Yet, dense and element-wise rounding matrices are prohibitively expensive for billion-parameter large language models (LLMs). We revisit adaptive rounding from an efficiency perspective and propose VQRound, a parameter-efficient optimization framework that reparameterizes the rounding matrix into a compact codebook. Unlike low-rank alternatives, VQRound minimizes the element-wise worst-case error under $L_\infty$ norm, which is critical for handling heavy-tailed weight distributions in LLMs. Beyond reparameterization, we identify rounding initialization as a decisive factor and develop a lightweight end-to-end finetuning pipeline that optimizes codebooks across all layers using only 128 samples. Extensive experiments on OPT, LLaMA, LLaMA2, and Qwen3 models demonstrate that VQRound achieves better convergence than traditional adaptive rounding at the same number of steps while using as little as 0.2% of the trainable parameters. Our results show that adaptive rounding can be made both scalable and fast-fitting. The code is available at https://github.com/zhoustan/VQRound.
- Abstract(参考訳): アダプティブ・ラウンドリング(Adaptive Rounding)は、学習後の量子化のためのラウンド・ツー・アレスト(RTN)の代替として、クロスエレメントエラーのキャンセルを可能にした。
しかし,10億パラメータの大言語モデル(LLM)では,高密度かつ素子回りの丸い行列は極めて高価である。
本稿では,適応ラウンドリングを効率の観点から再検討し,パラメータ効率のよい最適化フレームワークであるVQRoundを提案する。
低ランクの代替品とは異なり、VQRound は LLM の重み付き重み付け分布を扱うのに不可欠である$L_\infty$ norm の下で、要素的に最悪のケースエラーを最小限に抑える。
再パラメータ化以外にも、ラウンドの初期化を決定要因と認識し、128のサンプルだけですべてのレイヤにわたるコードブックを最適化する軽量なエンドツーエンドの微調整パイプラインを開発しています。
OPT, LLaMA, LLaMA2, Qwen3 モデルに対する大規模な実験により、VQRound はトレーニング可能なパラメータの 0.2% しか使用せず、同じステップ数で従来の適応型ラウンドリングよりも収束性が高いことを示した。
以上の結果から,適応型ラウンドリングは,スケーラブルかつ高速に実現可能であることが示唆された。
コードはhttps://github.com/zhoustan/VQRound.comで公開されている。
関連論文リスト
- Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Singular Value Decomposition on Kronecker Adaptation for Large Language Model [0.8747606955991707]
大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。
完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。
我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
論文 参考訳(メタデータ) (2025-06-18T08:28:53Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models [5.981614673186146]
私たちは小説を提示する。
-PEFT(Adaptive Freezing of Low Rank Adaptation)法
具体的には、トレーニング可能な低ランク行列の平行経路、すなわち、ダウンプロジェクションとアッププロジェクション行列を加え、それぞれに特徴変換ベクトルが続く。
実験結果から,GLUEベンチマークで評価した結果,平均値0.85%以上の改善を達成できることが確認された。
論文 参考訳(メタデータ) (2024-03-20T03:07:50Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - An Exact Solution Path Algorithm for SLOPE and Quasi-Spherical OSCAR [0.0]
そこで本研究では,SLOPEの最適化重み付けにおける解の完全かつ正確な経路を提供する解経路アルゴリズムを提案する。
また、機能クラスタリングのための正規化シーケンス$lambda$の新しい設計を提案し、これは、回帰(QS-OSCAR)のための準球面および八角形収縮およびクラスタリングアルゴリズムと呼ばれる。
論文 参考訳(メタデータ) (2020-10-29T12:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。