論文の概要: Beacon: Post-Training Quantization with Integrated Grid Selection
- arxiv url: http://arxiv.org/abs/2508.20293v1
- Date: Wed, 27 Aug 2025 22:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.840749
- Title: Beacon: Post-Training Quantization with Integrated Grid Selection
- Title(参考訳): Beacon: 統合グリッド選択によるポストトレーニング量子化
- Authors: Shihao Zhang, Rayan Saab,
- Abstract要約: チャネルごとのポストトレーニング量子化における重要な課題は、適切なスケーリング要因を選択することである。
このような手動チューニングを不要とした,単純かつ効率的なアルゴリズムBeaconを提案する。
ビーコンは最先端の手法に比べて競争力がある。
- 参考スコア(独自算出の注目度): 5.886065213861507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is a widely used compression technique for reducing the memory and computation costs of large pre-trained models. A key challenge in per-channel post-training quantization (PTQ) is selecting appropriate scaling factors to replace weight values with values from a scaled quantization grid. Existing methods typically fix the scale at the outset via heuristic tuning or grid search. In this note, we propose Beacon, a simple and effective algorithm that eliminates the need for such manual tuning. Beacon performs per-channel PTQ directly using a fixed non-scaled alphabet and automatically determines the optimal scaling factors by exploiting the geometry of symmetric scalar quantization. It supports both symmetric and asymmetric quantization with minimal modifications and does not rely on back-propagation or large calibration sets. Despite its simplicity and tuning-free nature, Beacon achieves competitive performance compared to state-of-the-art methods, making it a practical solution for efficient model deployment.
- Abstract(参考訳): 量子化は、大規模な事前学習モデルのメモリと計算コストを削減するために広く使われている圧縮技術である。
チャネルごとのポストトレーニング量子化(PTQ)における鍵となる課題は、ウェイト値をスケールされた量子化グリッドの値に置き換えるための適切なスケーリング要素を選択することである。
既存の方法は通常、ヒューリスティックなチューニングやグリッドサーチによって、開始時のスケールを修正する。
本稿では,手動チューニングを不要とした単純かつ効率的なアルゴリズムであるBeaconを提案する。
Beaconは、固定された非スケールアルファベットを用いてチャネルごとPTQを直接実行し、対称スカラー量子化の幾何学を利用して最適なスケーリング要素を自動的に決定する。
最小限の変更で対称量子化と非対称量子化の両方をサポートし、バックプロパゲーションや大きなキャリブレーションセットに依存しない。
単純さとチューニングのない性質にもかかわらず、Beaconは最先端の手法と比較して競争力のある性能を実現し、効率的なモデルデプロイメントのための実用的なソリューションとなる。
関連論文リスト
- GPTAQ: Efficient Finetuning-Free Quantization for Asymmetric Calibration [21.474315621757594]
GPTAQは大規模トランスアーキテクチャを圧縮するための新しい微調整不要量子化法である。
各層を独立に校正する従来のGPTQ法とは異なり、我々は常に量子化層の出力と完全精度モデルの正確な出力とを一致させる。
GPTAQは実装が容易で、GPTQよりも20行のコードを使用するだけで、低ビット量子化下での性能を向上させることができる。
論文 参考訳(メタデータ) (2025-04-03T15:30:43Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Gradient-Based Post-Training Quantization: Challenging the Status Quo [23.1120983784623]
量子化は、ディープニューラルネットワークの効率的なデプロイのための重要なステップとなっている。
この研究で、このプロセスは、ある程度は、多くの変数に対して堅牢であることを示す。
我々は、より効率的でスケーラブルなGPTQメソッドを設計するための多くのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2023-08-15T09:25:11Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。