論文の概要: RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm
- arxiv url: http://arxiv.org/abs/2504.03717v1
- Date: Sat, 29 Mar 2025 05:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 06:23:30.014571
- Title: RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm
- Title(参考訳): RaanA: 高速でフレキシブルでデータ効率の良いポストトレーニング量子化アルゴリズム
- Authors: Yongyi Yang, Jianyang Gao, Wei Hu,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)の推論効率を向上させるために広く使われている技術である。
既存のPTQ法は一般に、重度キャリブレーションデータ要求や、ターゲットビット数の非フレキシブルな選択といった重要な制限に悩まされる。
1)RaBitQ-H, ランダム化ベクトル量子化法の変種 RaBitQ, 高速で正確で高効率な量子化のための設計 ; 2) アロケートビット, 層間でビット幅を最適に割り当てるアルゴリズム
- 参考スコア(独自算出の注目度): 13.768298349218927
- License:
- Abstract: Post-training Quantization (PTQ) has become a widely used technique for improving inference efficiency of large language models (LLMs). However, existing PTQ methods generally suffer from crucial limitations such as heavy calibration data requirements and inflexible choice of target number of bits. In this paper, we propose RaanA, a unified PTQ framework that overcomes these challenges by introducing two novel components: 1) RaBitQ-H, a variant of a randomized vector quantization method RaBitQ, designed for fast, accurate, and highly efficient quantization; and 2) AllocateBits, an algorithm that optimally allocates bit-widths across layers based on their quantization sensitivity. RaanA achieves competitive performance with state-of-the-art quantization methods while being extremely fast, requiring minimal calibration data, and enabling flexible bit allocation. Extensive experiments demonstrate RaanA's efficacy in balancing efficiency and accuracy. The code is publicly available at https://github.com/FFTYYY/RaanA .
- Abstract(参考訳): 後学習量子化(PTQ)は、大規模言語モデル(LLM)の推論効率を改善するために広く使われている技術である。
しかし、既存のPTQ法は、大キャリブレーションデータ要求やターゲットビット数の非フレキシブルな選択など、決定的な制限を被ることが多い。
本稿では,2つの新しいコンポーネントを導入することで,これらの課題を克服する統一PTQフレームワークであるRaanAを提案する。
1) RaBitQ-H - 高速で正確で高効率な量子化のために設計されたランダム化ベクトル量子化法 RaBitQ の変種。
2)AllocateBitsは,その量子化感度に基づいて,各層に最適なビット幅を割り当てるアルゴリズムである。
RaanAは、最先端の量子化手法との競合性能を極端に高速であり、キャリブレーションの最小限のデータを必要とし、柔軟なビット割り当てを可能にする。
大規模な実験は、効率と精度のバランスをとる上でのRaanAの有効性を示す。
コードはhttps://github.com/FFTYYY/RaanAで公開されている。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - SKIM: Any-bit Quantization Pushing The Limits of Post-Training Quantization [7.198819240352308]
大きな言語モデル(LLM)は、様々なタスクにまたがって素晴らしいパフォーマンスを示すが、推論のためにそれらをデプロイすることは、課題を引き起こす。
SKIM: Scaled K-means clustering wIth Mixed precisionを提案する。
モデルパープレキシティの観点からは、3ビット量子化LLaMAモデルとそれらの完全精度モデルとのギャップを平均16.3%縮小する。
論文 参考訳(メタデータ) (2024-12-05T14:19:59Z) - ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search [16.389851096504277]
本稿では,RabQ という新しいランダム化量子化手法を提案し,D$次元ベクトルを$D$ビット文字列に量子化する。
RaBitQは、シャープな理論的エラー境界を保証し、同時に優れた経験的精度を提供する。
さらに,ビットワイズ演算やSIMDに基づく演算での距離を推定するRaBitQの効率的な実装についても紹介する。
論文 参考訳(メタデータ) (2024-05-21T04:55:04Z) - AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution [53.23803932357899]
我々は、処理時間を数時間から秒に短縮する最初のオンザフライ適応量子化フレームワークを導入する。
我々は,従来の適応量子化法と競合する性能を実現し,処理時間をx2000で高速化する。
論文 参考訳(メタデータ) (2024-04-04T08:37:27Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Quasi-Newton Solver for Robust Non-Rigid Registration [35.66014845211251]
データフィッティングと正規化のための大域的スムーズなロバスト推定器に基づくロバストな非剛性登録のための定式化を提案する。
本稿では,L-BFGS を用いた最小二乗問題の解法に,各繰り返しを減らし,最大化最小化アルゴリズムを適用した。
論文 参考訳(メタデータ) (2020-04-09T01:45:05Z) - CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity [34.36803740112609]
CrossQはサンプル効率の点で現在の最先端の手法と一致または超えている。
これはREDQやDroQに比べて計算コストを大幅に削減する。
SAC上にわずか数行のコードを必要とするため、実装が容易である。
論文 参考訳(メタデータ) (2019-02-14T21:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。