論文の概要: FraQAT: Quantization Aware Training with Fractional bits
- arxiv url: http://arxiv.org/abs/2510.14823v1
- Date: Thu, 16 Oct 2025 16:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.934305
- Title: FraQAT: Quantization Aware Training with Fractional bits
- Title(参考訳): FraQAT: 分数ビットによる量子化学習
- Authors: Luca Morreale, Alberto Gil C. P. Ramos, Malcolm Chadwick, Mehid Noroozi, Ruchika Chavhan, Abhinav Mehrotra, Sourav Bhattacharya,
- Abstract要約: 量子化法はモデルパラメータの精度を下げ、効率的な計算を可能にした。
品質を維持するために,新しい分数ビット量子化(ショート)手法を提案する。
SD3.5-Medium, Sana, pixart, FLUX.1-schnell などの拡散モデルでは, 短い収率で品質が向上することを示した。
- 参考スコア(独自算出の注目度): 9.270060473981054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art (SOTA) generative models have demonstrated impressive capabilities in image synthesis or text generation, often with a large capacity model. However, these large models cannot be deployed on smartphones due to the limited availability of on-board memory and computations. Quantization methods lower the precision of the model parameters, allowing for efficient computations, \eg, in \INT{8}. Although aggressive quantization addresses efficiency and memory constraints, preserving the quality of the model remains a challenge. To retain quality in previous aggressive quantization, we propose a new fractional bits quantization (\short) approach. The novelty is a simple yet effective idea: we progressively reduce the model's precision from 32 to 4 bits per parameter, and exploit the fractional bits during optimization to maintain high generation quality. We show that the \short{} yields improved quality on a variety of diffusion models, including SD3.5-Medium, Sana, \pixart, and FLUX.1-schnell, while achieving $4-7\%$ lower FiD than standard QAT. Finally, we deploy and run Sana on a Samsung S25U, which runs on the Qualcomm SM8750-AB Snapdragon 8 Elite Hexagon Tensor Processor (HTP).
- Abstract(参考訳): State-of-the-art(SOTA)生成モデルは、画像合成やテキスト生成において、しばしば大きなキャパシティモデルで印象的な能力を誇示している。
しかし、これらの大きなモデルは、オンボードメモリと計算能力が限られているため、スマートフォンには展開できない。
量子化法はモデルパラメータの精度を下げ、より効率的な計算である \eg を \INT{8} で行うことができる。
積極的な量子化は効率とメモリの制約に対処するが、モデルの品質を維持することは依然として困難である。
従来のアグレッシブ量子化における品質を維持するために、我々は新しい分数ビット量子化(\short)アプローチを提案する。
モデルの精度をパラメータ毎に32ビットから4ビットに段階的に削減し、最適化中の分数ビットを利用して高世代品質を維持する。
SD3.5-Medium, Sana, \pixart, FLUX.1-schnell などの拡散モデルでは, 標準QAT よりも 4-7\% 低い品質が得られる。
Qualcomm SM8750-AB Snapdragon 8 Elite Hexagon Tensor Processor (HTP)上で動作します。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - BitsFusion: 1.99 bits Weight Quantization of Diffusion Model [43.11229823281721]
安定拡散v1.5から1.99ビットまでのUNetを量子化し、7.9倍のサイズのモデルを実現する新しい重み量子化法を開発した。
我々は、様々なベンチマークデータセットと人による評価を通じて、量子化モデルを広範囲に評価し、その優れた生成品質を実証した。
論文 参考訳(メタデータ) (2024-06-06T17:59:23Z) - MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。
Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文 参考訳(メタデータ) (2024-05-28T06:50:58Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Sharpness-aware Quantization for Deep Neural Networks [45.150346855368]
シャープネス・アウェア量子化(SAQ)は,シャープネス・アウェア最小化(SAM)がモデル圧縮に与える影響を探索する新しい手法である。
本研究では,SAQにより量子化モデルの一般化性能が向上し,SOTAの結果が均一に量子化されることを示す。
論文 参考訳(メタデータ) (2021-11-24T05:16:41Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。