論文の概要: TreeQ: Pushing the Quantization Boundary of Diffusion Transformer via Tree-Structured Mixed-Precision Search
- arxiv url: http://arxiv.org/abs/2512.06353v1
- Date: Sat, 06 Dec 2025 08:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.318158
- Title: TreeQ: Pushing the Quantization Boundary of Diffusion Transformer via Tree-Structured Mixed-Precision Search
- Title(参考訳): TreeQ: Tree-Structured Mixed-Precision Searchによる拡散変圧器の量子化境界のプッシュ
- Authors: Kaicheng Yang, Kaisen Yang, Baiting Wu, Xun Zhang, Qianrui Yang, Haotong Qin, He Zhang, Yulun Zhang,
- Abstract要約: Diffusion Transformer (DiT) は、画像生成のための非常にスケーラブルで効果的なバックボーンとして登場した。
混合精度量子化(MPQ)は、サブ4ビット設定へのU-Net量子化の進展において顕著な成功を収めた。
DiT量子化における重要な課題に対処する統合フレームワークであるTreeQを提案する。
- 参考スコア(独自算出の注目度): 35.93578975066986
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion Transformers (DiTs) have emerged as a highly scalable and effective backbone for image generation, outperforming U-Net architectures in both scalability and performance. However, their real-world deployment remains challenging due to high computational and memory demands. Mixed-Precision Quantization (MPQ), designed to push the limits of quantization, has demonstrated remarkable success in advancing U-Net quantization to sub-4bit settings while significantly reducing computational and memory overhead. Nevertheless, its application to DiT architectures remains limited and underexplored. In this work, we propose TreeQ, a unified framework addressing key challenges in DiT quantization. First, to tackle inefficient search and proxy misalignment, we introduce Tree Structured Search (TSS). This DiT-specific approach leverages the architecture's linear properties to traverse the solution space in O(n) time while improving objective accuracy through comparison-based pruning. Second, to unify optimization objectives, we propose Environmental Noise Guidance (ENG), which aligns Post-Training Quantization (PTQ) and Quantization-Aware Training (QAT) configurations using a single hyperparameter. Third, to mitigate information bottlenecks in ultra-low-bit regimes, we design the General Monarch Branch (GMB). This structured sparse branch prevents irreversible information loss, enabling finer detail generation. Through extensive experiments, our TreeQ framework demonstrates state-of-the-art performance on DiT-XL/2 under W3A3 and W4A4 PTQ/PEFT settings. Notably, our work is the first to achieve near-lossless 4-bit PTQ performance on DiT models. The code and models will be available at https://github.com/racoonykc/TreeQ
- Abstract(参考訳): Diffusion Transformer (DiTs) は、画像生成のための高度にスケーラブルで効果的なバックボーンとして登場し、スケーラビリティとパフォーマンスの両方においてU-Netアーキテクチャより優れている。
しかし、計算量やメモリの要求が高いため、実際の展開は依然として困難である。
量子化の限界を押し上げるために設計されたMixed-Precision Quantization (MPQ)は、計算とメモリのオーバーヘッドを大幅に減らしながら、サブ4ビット設定へのU-Net量子化を推し進めることに成功した。
それでも、DiTアーキテクチャへの適用は限定的であり、未調査である。
本研究では,DiT量子化における重要な課題に対処する統合フレームワークであるTreeQを提案する。
まず,非効率的な探索とプロキシのミスアライメントに対処するために,木構造探索(TSS)を導入する。
この DiT 固有のアプローチは、アーキテクチャの線形特性を利用して、O(n) 時間で解空間を横切ると同時に、比較ベースのプルーニングにより客観的な精度を向上させる。
第2に、最適化目標を統一するために、単一ハイパーパラメータを用いたPTQ(Post-Training Quantization)とQAT(Quantization-Aware Training)の設定を整列する環境騒音誘導(ENG)を提案する。
第3に、超低ビット状態における情報のボトルネックを軽減するために、General Monarch Branch (GMB) を設計する。
この構造化スパース分岐は、不可逆的な情報損失を防止し、より微細な詳細生成を可能にする。
大規模な実験を通じて、TreeQフレームワークは、W3A3およびW4A4 PTQ/PEFT設定下でのDiT-XL/2の最先端性能を示す。
特に、我々の研究は、DiTモデル上でほぼ無作為な4ビットPTQ性能を達成した最初のものである。
コードとモデルはhttps://github.com/racoonykc/TreeQで入手できる。
関連論文リスト
- RobuQ: Pushing DiTs to W1.58A2 via Robust Activation Quantization [33.96616374712551]
Diffusion Transformer (DiT) は画像生成の強力なバックボーンとして登場した。
彼らの実践的な展開は、相当な計算とメモリコストによって妨げられている。
本稿では,RobuQ という名称の DiT の体系的 QAT フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T02:35:12Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。