論文の概要: SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.02883v1
- Date: Tue, 03 Mar 2026 11:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.769534
- Title: SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers
- Title(参考訳): SemanticDialect:ビデオ拡散変換器のための意味認識型混合形式量子化
- Authors: Wonsuk Jang, Thierry Tambe,
- Abstract要約: ブロック単位の最適形式(方言)を複数の候補(フォーマットブック)から選択するブロック単位の混合形式量子化を提案する。
また、注意誘導トークン選択による残差の再定量化と付加による量子化誤差を低減するアクティベーション分解も導入する。
ビデオDiT(VDiT)モデルの実験では、SemanticDialectはVDiTの量子化手法やブロックワイドフォーマットの詳細なベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 0.31511847280063693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiT) achieve strong video generation quality, but their memory and compute costs hinder edge deployment. Quantization can reduce these costs, yet existing methods often degrade video quality under high activation variation and the need to preserve semantic/temporal coherence. We propose SemanticDialect, which advances recent block-wise mixed-format quantization-selecting a per-block optimal format (a dialect) from multiple candidates (a formatbook)-by scaling the formatbook with lookup tables for quantization error and quantized values, enabling efficient per-block format selection and quantization at low online cost. We also introduce activation decomposition that reduces quantization error by re-quantizing and adding back residual errors, with attention-guided salient token selection. We further propose semantic-aware dialect assignment (SeDA) to improve quantized value consistency by sharing a sub-formatbook among semantically correlated tokens. Experiments on video DiT (VDiT) models show that SemanticDialect outperforms prior VDiT quantization methods and fine-grained block-wise format baselines, while approaching FP16 quality on Open-Sora 2.0.
- Abstract(参考訳): Diffusion Transformer (DiT)は、強力なビデオ生成品質を実現するが、そのメモリと計算コストはエッジデプロイメントを妨げる。
量子化はこれらのコストを削減できるが、既存の方法は、高いアクティベーション変動と意味的/時間的コヒーレンスを維持する必要性の下で、ビデオ品質を劣化させることが多い。
本稿では,複数の候補(フォーマットブック)からブロックごとの最適なフォーマット(方言)を選択することで,近年のブロック単位での混合形式量子化を推し進めるSemanticDialectを提案する。
また、注意誘導トークン選択による残差の再定量化と付加による量子化誤差を低減するアクティベーション分解も導入する。
さらにセマンティック・アウェア・方言代入(SeDA)を提案し、セマンティックな相関トークン間でサブフォームブックを共有することにより、量子化値の整合性を改善する。
ビデオDiT(VDiT)モデルの実験では、SemanticDialectは、Open-Sora 2.0上でFP16品質に近づきながら、VDiT量子化手法やきめ細かなブロックワイドフォーマットベースラインよりも優れていた。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - S$^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation [55.35880044416441]
ビデオ拡散モデル(V-DM)の学習後量子化フレームワークであるS$2$Q-VDiTを提案する。
W4A6量子化の下では、S$2$Q-VDiTは3.9倍のモデル圧縮と1.3倍の推論加速を実現している。
論文 参考訳(メタデータ) (2025-08-06T02:12:29Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers [31.95947876513405]
本稿では,ビデオDiTモデルに特化して設計された量子化フレームワークQDi-VTを提案する。
量子化の観点から,トークンおよび特徴次元の量子化誤差を補償するToken-Aware Quantization Estor (TQE)を提案する。
我々のW3A6 QDi-VTは23.40のシーン一貫性を実現し、新しいベンチマークを設定し、1.9$times$で最先端の量子化手法より優れている。
論文 参考訳(メタデータ) (2025-05-28T09:33:52Z) - DVD-Quant: Data-free Video Diffusion Transformers Quantization [86.89313228225666]
DVD-Quantは、ビデオDiTのための新しいデータフリー量子化フレームワークである。
先進的なDiTモデルの完全精度ベースラインよりも約2$times$のスピードアップを実現している。
DVD-Quantは、ビデオ品質を損なうことなくW4A4 PTQ for Video DiTsを有効にする最初の製品である。
論文 参考訳(メタデータ) (2025-05-24T11:56:02Z) - Optimal Formats for Weight Quantisation [6.073675653083644]
本稿では,量子化フォーマットの体系的設計と分析のためのフレームワークを提案する。
一般的なフォーマットの実践的パフォーマンスは,可変長符号を用いた値表現能力に起因していることが示される。
論文 参考訳(メタデータ) (2025-05-19T11:26:54Z) - DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models [12.875837358532422]
本稿では,テキストから画像への拡散モデルの定量化に関わる課題を,分布の観点から分析する。
本稿では,画像品質を維持するために,画素単位とチャネル単位のアウトレイラを適応的に処理するDGQを提案する。
提案手法はMS-COCOやPartiPromptsなどのデータセットに対して顕著な性能を示す。
論文 参考訳(メタデータ) (2025-01-08T06:30:31Z) - Error Diffusion: Post Training Quantization with Block-Scaled Number Formats for Neural Networks [1.042733720689638]
量子化は、データ移動、ストレージ、乗算や加算のような操作など、モデルのハードウェアコストを削減します。
ブロックスケールの数値形式のようなよりエキゾチックな数値エンコーディングは、固定ビット予算を利用してモデルパラメータをエンコードする利点を示している。
本稿では,ブロックスケールデータフォーマットをサポートするポストトレーニング量子化のための誤り拡散(ED)を提案する。
論文 参考訳(メタデータ) (2024-10-15T02:40:50Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。