論文の概要: RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm
- arxiv url: http://arxiv.org/abs/2504.03717v1
- Date: Sat, 29 Mar 2025 05:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 11:32:03.627616
- Title: RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm
- Title(参考訳): RaanA: 高速でフレキシブルでデータ効率の良いポストトレーニング量子化アルゴリズム
- Authors: Yongyi Yang, Jianyang Gao, Wei Hu,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)の推論効率を向上させるために広く使われている技術である。
既存のPTQ法は一般に、重度キャリブレーションデータ要求や、ターゲットビット数の非フレキシブルな選択といった重要な制限に悩まされる。
1)RaBitQ-H, ランダム化ベクトル量子化法の変種 RaBitQ, 高速で正確で高効率な量子化のための設計 ; 2) アロケートビット, 層間でビット幅を最適に割り当てるアルゴリズム
- 参考スコア(独自算出の注目度): 13.768298349218927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training Quantization (PTQ) has become a widely used technique for improving inference efficiency of large language models (LLMs). However, existing PTQ methods generally suffer from crucial limitations such as heavy calibration data requirements and inflexible choice of target number of bits. In this paper, we propose RaanA, a unified PTQ framework that overcomes these challenges by introducing two novel components: 1) RaBitQ-H, a variant of a randomized vector quantization method RaBitQ, designed for fast, accurate, and highly efficient quantization; and 2) AllocateBits, an algorithm that optimally allocates bit-widths across layers based on their quantization sensitivity. RaanA achieves competitive performance with state-of-the-art quantization methods while being extremely fast, requiring minimal calibration data, and enabling flexible bit allocation. Extensive experiments demonstrate RaanA's efficacy in balancing efficiency and accuracy. The code is publicly available at https://github.com/FFTYYY/RaanA .
- Abstract(参考訳): 後学習量子化(PTQ)は、大規模言語モデル(LLM)の推論効率を改善するために広く使われている技術である。
しかし、既存のPTQ法は、大キャリブレーションデータ要求やターゲットビット数の非フレキシブルな選択など、決定的な制限を被ることが多い。
本稿では,2つの新しいコンポーネントを導入することで,これらの課題を克服する統一PTQフレームワークであるRaanAを提案する。
1) RaBitQ-H - 高速で正確で高効率な量子化のために設計されたランダム化ベクトル量子化法 RaBitQ の変種。
2)AllocateBitsは,その量子化感度に基づいて,各層に最適なビット幅を割り当てるアルゴリズムである。
RaanAは、最先端の量子化手法との競合性能を極端に高速であり、キャリブレーションの最小限のデータを必要とし、柔軟なビット割り当てを可能にする。
大規模な実験は、効率と精度のバランスをとる上でのRaanAの有効性を示す。
コードはhttps://github.com/FFTYYY/RaanAで公開されている。
関連論文リスト
- FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - An Efficient Quantum Classifier Based on Hamiltonian Representations [50.467930253994155]
量子機械学習(QML)は、量子コンピューティングの利点をデータ駆動タスクに移行しようとする分野である。
入力をパウリ弦の有限集合にマッピングすることで、データ符号化に伴うコストを回避できる効率的な手法を提案する。
我々は、古典的および量子モデルに対して、テキストおよび画像分類タスクに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-04-13T11:49:53Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - SKIM: Any-bit Quantization Pushing The Limits of Post-Training Quantization [7.198819240352308]
大きな言語モデル(LLM)は、様々なタスクにまたがって素晴らしいパフォーマンスを示すが、推論のためにそれらをデプロイすることは、課題を引き起こす。
SKIM: Scaled K-means clustering wIth Mixed precisionを提案する。
モデルパープレキシティの観点からは、3ビット量子化LLaMAモデルとそれらの完全精度モデルとのギャップを平均16.3%縮小する。
論文 参考訳(メタデータ) (2024-12-05T14:19:59Z) - RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search [16.389851096504277]
本稿では,RabQ という新しいランダム化量子化手法を提案し,D$次元ベクトルを$D$ビット文字列に量子化する。
RaBitQは、シャープな理論的エラー境界を保証し、同時に優れた経験的精度を提供する。
さらに,ビットワイズ演算やSIMDに基づく演算での距離を推定するRaBitQの効率的な実装についても紹介する。
論文 参考訳(メタデータ) (2024-05-21T04:55:04Z) - AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution [53.23803932357899]
我々は、処理時間を数時間から秒に短縮する最初のオンザフライ適応量子化フレームワークを導入する。
我々は,従来の適応量子化法と競合する性能を実現し,処理時間をx2000で高速化する。
論文 参考訳(メタデータ) (2024-04-04T08:37:27Z) - Mixed-Precision Quantization for Deep Vision Models with Integer Quadratic Programming [7.0146264551420066]
量子化はニューラルネットワークを圧縮する技術として広く使われている。
MPQは、様々なビット幅をレイヤに割り当て、精度と効率のトレードオフを最適化することで、この問題に対処する。
我々は、量子化誤差の層間依存性をキャプチャする実用的な感度に基づくMPQアルゴリズムであるCLADOを紹介する。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Quasi-Newton Solver for Robust Non-Rigid Registration [35.66014845211251]
データフィッティングと正規化のための大域的スムーズなロバスト推定器に基づくロバストな非剛性登録のための定式化を提案する。
本稿では,L-BFGS を用いた最小二乗問題の解法に,各繰り返しを減らし,最大化最小化アルゴリズムを適用した。
論文 参考訳(メタデータ) (2020-04-09T01:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。