論文の概要: Boundary-Protection W8A8 HiFloat8 Quantization for Large-Scale Text-to-Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2606.00957v1
- Date: Sun, 31 May 2026 02:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:28.999782
- Title: Boundary-Protection W8A8 HiFloat8 Quantization for Large-Scale Text-to-Video Diffusion Transformers
- Title(参考訳): 大規模テキスト・ビデオ拡散変換器における境界検出W8A8 HiFloat8量子化
- Authors: Yiming Zhao,
- Abstract要約: Ascend 910B NPU 上の W8A8 HiFloat8 フォーマットをターゲットにしたテキスト・ビデオ拡散変換器 Wan2.1-T2V-14B の学習後量子化手法を提案する。
我々は,40個のWanAttentionBlockに対して,ブロックごとのアクティベーションを系統的に解析し,その知見を境界保護戦略のモチベーションとして活用する。
提案手法は, 評価された5つのVBench次元のBF16ベースラインに一致するか, あるいはわずかに上回り, 5-prompt 評価セット内で測定可能な精度損失を示さない。
- 参考スコア(独自算出の注目度): 10.8425696912155
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a post-training quantization (PTQ) approach for Wan2.1-T2V-14B, a 14-billion-parameter text-to-video diffusion transformer, targeting the W8A8 HiFloat8 (HiF8) format on Ascend 910B NPUs. A central challenge in quantizing video DiT models is the heterogeneous activation distribution across transformer blocks: boundary blocks (the first and last few blocks) exhibit fundamentally different statistical properties from middle blocks, making uniform quantization ineffective. We conduct a systematic per-block activation analysis across all 40 WanAttentionBlocks and use the findings to motivate a boundary-protection strategy that retains the first two and last three blocks in BF16 while quantizing the remaining 35 blocks with W8A8 HiF8. The proposed PTQ method matches or marginally exceeds the BF16 baseline on all five VBench dimensions evaluated, indicating no measurable accuracy loss within the 5-prompt evaluation set. An ablation study over four protection configurations confirms that full boundary protection yields the highest average VBench score, validating the data-driven block selection. We additionally investigate quantization-aware training (QAT) as a complementary fine-tuning stage and analyze the conditions under which it fails to outperform plain PTQ on single-card hardware.
- Abstract(参考訳): Ascend 910B NPU 上の W8A8 HiFloat8 (HiF8) フォーマットをターゲットとした 14 ビリオンパラメトリックテキスト・ビデオ拡散変換器 Wan2.1-T2V-14B に対するポストトレーニング量子化 (PTQ) 手法を提案する。
ビデオDiTモデルの定量化における中心的な課題は、変圧器ブロック間の不均一な活性化分布である:境界ブロック(最初の数ブロックと最後の数ブロック)は、中間ブロックと根本的に異なる統計的性質を示し、均一な量子化が有効でない。
我々は、40個のWanAttentionBlockに対してブロックごとのアクティベーションを系統的に解析し、残りの35ブロックをW8A8 HiF8で定量化しながら、BF16の最初の2ブロックと最後の3ブロックを保持する境界保護戦略を動機づける。
提案手法は, 評価された5つのVBench次元のBF16ベースラインに一致するか, あるいはわずかに上回り, 5-prompt 評価セット内で測定可能な精度損失を示さない。
4つの保護構成に関するアブレーション調査では、完全な境界保護が平均的なVBenchスコアをもたらすことが確認され、データ駆動のブロック選択が検証される。
さらに,QATを相補的な微調整段階として検討し,シングルカードハードウェア上でのPTQを上回りにくい条件を解析する。
関連論文リスト
- Partial Number Theoretic Transform Masking in Post Quantum Cryptography Hardware: A Security Margin Analysis [0.0]
ML-DSAとML-KEMのハードウェアアクセラレータAdams Bridgeは、Inverse Number Theoretic Transformレイヤの1をマスクし、残りの部分はシャッフルに頼っている。
著者らは,信頼度の高い7つの分析トラックをまたいだサイドチャネル文学に対するこれらの主張を,信頼性の高い証拠を用いて評価した。
論文 参考訳(メタデータ) (2026-04-04T17:38:34Z) - RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference [1.1100764382749708]
RAMP (Reinforcement Adaptive Mixed Precision) は、グローバルビット予算の下でパープレキシティを最小限に抑えるために、層幅の割り当て毎に学習する。
Llama 2 7Bでは、RAMPは3.68GB (3.65 ビット)で5.54パープレキシティを実現し、均一な4ビット AWQ (5.60 ビット、3.90 GB)と GPTQ を6%、品質は1%から3%向上した。
論文 参考訳(メタデータ) (2026-03-18T16:16:28Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping [36.012101195384744]
Diffusion Transformer (DiT) は画像生成モデルを構築する上で好まれる選択肢となっている。
DiTは純粋に、大きな言語モデルのようなスケーラビリティに優れたDiTをレンダリングするトランスフォーマーブロックのスタックで構成されている。
本稿では,これらの課題に対処するため,拡散変換に適したポストトレーニング量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T05:21:04Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。