論文の概要: Tail-Aware HiFloat4: W4A4 Post-Training Quantization for Wan2.2
- arxiv url: http://arxiv.org/abs/2605.26628v1
- Date: Tue, 26 May 2026 07:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.717024
- Title: Tail-Aware HiFloat4: W4A4 Post-Training Quantization for Wan2.2
- Title(参考訳): HiFloat4を意識したW4A4後のWan2.2の量子化
- Authors: Zhanfeng Feng, Shuai Guo, Xin Di, Long Peng, Yang Cao, Zhengjun Zha,
- Abstract要約: 本稿では,低ビットテキスト・ビデオ生成量子化問題に対する提案であるTail-Aware HiFloat4について述べる。
We Quantize the main linear layer in both Wan2.2 transformer module with W4A4 HiFloat4 fake Quantization。
この設計は、ランタイムのHiFloat4演算とサンプリングパイプラインを変更せずに、稀な外れ値のキャリブレーションの影響を低減する。
- 参考スコア(独自算出の注目度): 45.26076445356586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes Tail-Aware HiFloat4, our submission to the low-bit text-to-video generation quantization challenge. Our method adapts the public ViDiT-Q post-training quantization pipeline to Wan2.2 under the HiFloat4 numerical format. We quantize the main linear layers in both Wan2.2 transformer modules with W4A4 HiFloat4 fake quantization, keep numerically sensitive boundary modules in high precision, and introduce an activation-tail-aware percentile calibration module for channel-mask construction. Together with compact PTQ-state restoration, this design reduces the influence of rare calibration outliers while keeping the runtime HiFloat4 arithmetic and sampling pipeline unchanged.
- Abstract(参考訳): 本稿では,低ビットテキスト・ビデオ生成量子化問題に対する提案であるTail-Aware HiFloat4について述べる。
提案手法は,HiFloat4の数値形式の下で,公開ViDiT-Qポストトレーニング量子化パイプラインをWan2.2に適応させる。
We Quantize the main linear layer in both Wan2.2 transformer module with W4A4 HiFloat4 fake Quantization, keep numbersly sensitive boundary module in highcision, and introduced a activation-tail-aware persile calibration module for channel-mask construction。
コンパクトなPTQ状態復元とともに、この設計は、実行時のHiFloat4演算とサンプリングパイプラインを変更せずに、レアキャリブレーション・アウトリーの影響を低減する。
関連論文リスト
- Timestep-Aware SVDQuant-GPTQ for W4A4 Quantization of Wan2.2-I2V [23.570323694430538]
大規模なビデオ拡散変換器の量子化W4A4は、メモリの大幅な節約を提供するが、2つの大きな課題によって妨げられる。
これらの難しさは、Wan2.2-I2V の2つの試験的混合型 DiT 設計によって複雑化されている。
本稿では,SVDQuantをベースとした低ランク外乱補償,GPTQをベースとした再構成型残量量子化,および各専門家が独立に行う時間ステップ2分単位のアクティベーションクリッピング比探索を組み合わせた後学習量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-26T13:24:01Z) - Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation [40.140261007984215]
我々は,NVFP4における量子化学習のための技術の現状を,マイクロスケールフォーマットのための新しい非バイアス量子化ルーチンによって改善する。
解析学的に、Quartet II はすべての行列乗法において一貫したより良い勾配推定を達成できることを示す。
論文 参考訳(メタデータ) (2026-01-30T10:39:11Z) - ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers [21.65616995056907]
モデルのサイズが大きくなるにつれて、メモリフットプリントの増加と推論のレイテンシは、実用的なデプロイメントにおいて大きな課題となる。
大規模言語モデル(LLMs)における最近の研究は、回転に基づく手法が外周を滑らかにし、4ビットの量子化を可能にすることを示している。
本稿では,正則アダマール変換(RHT)を利用したグループワイド回転に基づく量子化手法であるConvRotを提案する。
論文 参考訳(メタデータ) (2025-12-03T11:02:16Z) - FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers [15.324769026957641]
トレーニング後の量子化は、トレーニングや微調整を必要とせず、負担を軽減するための軽量な方法である。
W4A6量子化を実現するために浮動小数点量子化を利用するPTQ法であるFP4DiTを導入する。
FP4DiTは整数ベースのPTQをW4A6およびW4A8精度で上回ることを示した。
論文 参考訳(メタデータ) (2025-03-19T17:44:21Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。