Fugu-MT 論文翻訳(概要): TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models

論文の概要: TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models

arxiv url: http://arxiv.org/abs/2311.16503v2
Date: Wed, 28 Feb 2024 16:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 18:24:35.283318
Title: TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models
Title（参考訳）: TFMQ-DM:拡散モデルのための時間的特徴維持量子化
Authors: Yushi Huang, Ruihao Gong, Jing Liu, Tianlong Chen, Xianglong Liu
Abstract要約: 拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
参考スコア（独自算出の注目度）: 52.454274602380124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Diffusion model, a prevalent framework for image generation, encounters significant challenges in terms of broad applicability due to its extended inference times and substantial memory requirements. Efficient Post-training Quantization (PTQ) is pivotal for addressing these issues in traditional models. Different from traditional models, diffusion models heavily depend on the time-step $t$ to achieve satisfactory multi-round denoising. Usually, $t$ from the finite set $\{1, \ldots, T\}$ is encoded to a temporal feature by a few modules totally irrespective of the sampling data. However, existing PTQ methods do not optimize these modules separately. They adopt inappropriate reconstruction targets and complex calibration methods, resulting in a severe disturbance of the temporal feature and denoising trajectory, as well as a low compression efficiency. To solve these, we propose a Temporal Feature Maintenance Quantization (TFMQ) framework building upon a Temporal Information Block which is just related to the time-step $t$ and unrelated to the sampling data. Powered by the pioneering block design, we devise temporal information aware reconstruction (TIAR) and finite set calibration (FSC) to align the full-precision temporal features in a limited time. Equipped with the framework, we can maintain the most temporal information and ensure the end-to-end generation quality. Extensive experiments on various datasets and diffusion models prove our state-of-the-art results. Remarkably, our quantization approach, for the first time, achieves model performance nearly on par with the full-precision model under 4-bit weight quantization. Additionally, our method incurs almost no extra computational cost and accelerates quantization time by $2.0 \times$ on LSUN-Bedrooms $256 \times 256$ compared to previous works.
Abstract（参考訳）: 画像生成の一般的なフレームワークであるDiffusionモデルは、推論時間の拡張とかなりのメモリ要求のため、幅広い適用性の観点から大きな課題に直面している。効率的なトレーニング後の量子化(ptq)は、これらの問題を従来のモデルで扱う上で重要である。従来のモデルと異なり、拡散モデルは十分なマルチラウンドデノイジン化を達成するために時間ステップ$t$に大きく依存する。通常、有限集合 $\{1, \ldots, t\}$ から$t$ はサンプリングデータに全く関係なくいくつかの加群によって時間的特徴に符号化される。しかし、既存のPTQメソッドはこれらのモジュールを個別に最適化しない。彼らは不適切な再建ターゲットと複雑なキャリブレーション手法を採用し、時間的特徴の深刻な乱れと軌道の偏り、圧縮効率の低下をもたらす。そこで本研究では,時間ステップ$t$にのみ関連し,サンプリングデータとは無関係な時間的情報ブロックに基づく時間的特徴維持量化(tfmq)フレームワークを提案する。先駆的なブロック設計により、時間的情報認識再構築(tiar)と有限集合校正(fsc)を考案し、全精度時間的特徴を限られた時間内に調整する。フレームワークを備えることで、最も時間的な情報を維持でき、エンドツーエンドの生成品質を保証できます。様々なデータセットと拡散モデルに関する広範囲な実験により、最先端の結果が証明された。注目すべきことに、我々の量子化アプローチは初めて、4ビットの重み量子化の下での完全精度モデルとほぼ同等のモデル性能を達成する。さらに,提案手法は計算コストをほとんど必要とせず,LSUN-Bedrooms の量子化時間を 256$ の$2.0 \times$ で高速化する。

関連論文リスト

PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。 bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文参考訳（メタデータ） (2025-10-23T03:52:39Z)
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文参考訳（メタデータ） (2025-08-13T17:33:37Z)
QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
QArtSR: Quantization via Reverse-Module and Timestep-Retraining in One-Step Diffusion based Image Super-Resolution [96.98816416660534]
1段階拡散ベース画像超解像モデル(OSDSR)は、近年ますます優れた性能を示している。そこで我々は,QArtSR と呼ばれる OSDSR の逆加群による量子化と時間ステップの調整を効率的に行う方法を提案する。我々の4ビットおよび2ビットの量子化実験結果から、QArtSRは最近の先行比較法に対して優れた効果が得られることが示唆された。
論文参考訳（メタデータ） (2025-03-07T17:11:07Z)
TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-12-21T16:57:54Z)
Retrieval-Augmented Diffusion Models for Time Series Forecasting [19.251274915003265]
検索時間拡張拡散モデル(RATD)を提案する。 RATDは埋め込みベースの検索プロセスと参照誘導拡散モデルという2つの部分から構成される。当社のアプローチでは,データベース内の意味のあるサンプルを活用することで,サンプリングを支援し,データセットの利用を最大化することが可能です。
論文参考訳（メタデータ） (2024-10-24T13:14:39Z)
MixLinear: Extreme Low Resource Multivariate Time Series Forecasting with 0.1K Parameters [6.733646592789575]
時系列予測(LTSF)は、パターンや傾向を特定するために、大量の時系列データを分析することによって、長期的な価値を予測する。トランスフォーマーベースのモデルは高い予測精度を提供するが、ハードウェア制約のあるデバイスにデプロイするには計算集約的すぎることが多い。資源制約のあるデバイスに特化して設計された超軽量時系列予測モデルであるMixLinearを提案する。
論文参考訳（メタデータ） (2024-10-02T23:04:57Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
TMPQ-DM: Joint Timestep Reduction and Quantization Precision Selection for Efficient Diffusion Models [40.5153344875351]
我々はTMPQ-DMを導入し、タイムステップの削減と量子化を共同で最適化し、優れた性能・効率のトレードオフを実現する。時間段階の削減のために、デノナイジング過程の非一様性に合わせた非一様グルーピングスキームを考案する。量子化の観点では、最終的な生成性能に対するそれぞれの貢献に基づいて、異なる層に異なるビット幅を割り当てる、きめ細かいレイヤーワイズアプローチを採用する。
論文参考訳（メタデータ） (2024-04-15T07:51:40Z)
One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。 OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文参考訳（メタデータ） (2023-11-27T12:02:42Z)
ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文参考訳（メタデータ） (2023-04-07T15:17:48Z)
Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文参考訳（メタデータ） (2023-02-08T19:38:59Z)
Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文参考訳（メタデータ） (2021-06-25T22:08:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。