Fugu-MT 論文翻訳(概要): Temporal Feature Matters: A Framework for Diffusion Model Quantization

論文の概要: Temporal Feature Matters: A Framework for Diffusion Model Quantization

arxiv url: http://arxiv.org/abs/2407.19547v2
Date: Wed, 7 Aug 2024 20:43:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 17:49:51.609866
Title: Temporal Feature Matters: A Framework for Diffusion Model Quantization
Title（参考訳）: 時間的特徴:拡散モデル量子化のためのフレームワーク
Authors: Yushi Huang, Ruihao Gong, Xianglong Liu, Jing Liu, Yuhang Li, Jiwen Lu, Dacheng Tao,
Abstract要約: 拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
参考スコア（独自算出の注目度）: 105.3033493564844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Diffusion models, widely used for image generation, face significant challenges related to their broad applicability due to prolonged inference times and high memory demands. Efficient Post-Training Quantization (PTQ) is crucial to address these issues. However, unlike traditional models, diffusion models critically rely on the time-step for the multi-round denoising. Typically, each time-step is encoded into a hypersensitive temporal feature by several modules. Despite this, existing PTQ methods do not optimize these modules individually. Instead, they employ unsuitable reconstruction objectives and complex calibration methods, leading to significant disturbances in the temporal feature and denoising trajectory, as well as reduced compression efficiency. To address these challenges, we introduce a novel quantization framework that includes three strategies: 1) TIB-based Maintenance: Based on our innovative Temporal Information Block (TIB) definition, Temporal Information-aware Reconstruction (TIAR) and Finite Set Calibration (FSC) are developed to efficiently align original temporal features. 2) Cache-based Maintenance: Instead of indirect and complex optimization for the related modules, pre-computing and caching quantized counterparts of temporal features are developed to minimize errors. 3) Disturbance-aware Selection: Employ temporal feature errors to guide a fine-grained selection between the two maintenance strategies for further disturbance reduction. This framework preserves most of the temporal information and ensures high-quality end-to-end generation. Extensive testing on various datasets, diffusion models and hardware confirms our superior performance and acceleration..
Abstract（参考訳）: Diffusionモデルは画像生成に広く使われており、長期の推論時間と高いメモリ要求により、その適用性に大きな課題に直面している。これらの問題に対処するためには、効率的なポストトレーニング量子化(PTQ)が不可欠である。しかし、従来のモデルとは異なり、拡散モデルはマルチラウンド・デノゲーションの時間ステップに大きく依存している。通常、各時間ステップは複数のモジュールによって超敏感な時間的特徴に符号化される。それにもかかわらず、既存のPTQメソッドはこれらのモジュールを個別に最適化しない。代わりに、それらは不適切な再建目的と複雑な校正手法を採用しており、時間的特徴の著しい乱れと軌道の偏り、圧縮効率の低下につながっている。これらの課題に対処するため、我々は3つの戦略を含む新しい量子化フレームワークを導入した。 1)TIBに基づく保守:我々の革新的な時間情報ブロック(TIB)の定義に基づき、時間情報認識再構成(TIAR)と有限セット校正(FSC)を開発し、元の時間的特徴を効率的に整合させる。 2) キャッシュベースのメンテナンス: 関連するモジュールの間接的かつ複雑な最適化の代わりに,時間的特徴の量子化処理とキャッシュが開発され,エラーを最小限に抑える。 3) 外乱認識選択: 時間的特徴誤差を用いて, 更なる外乱低減のための2つの保守戦略間のきめ細かい選択を導出する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。様々なデータセット、拡散モデル、ハードウェアの大規模なテストにより、我々の優れた性能と加速度が確認されます。と。

関連論文リスト

VISTA: Unsupervised 2D Temporal Dependency Representations for Time Series Anomaly Detection [42.694234312755285]
時系列異常検出(TSAD)は、ラベルのない時系列データの中で稀で潜在的に有害な事象を明らかにするのに不可欠である。本稿では,これらの課題を克服するために,トレーニング不要で教師なしのTSADアルゴリズムであるVISTAを紹介する。
論文参考訳（メタデータ） (2025-04-03T11:20:49Z)
Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [26.706957163997043]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。 MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文参考訳（メタデータ） (2025-01-08T16:41:31Z)
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文参考訳（メタデータ） (2024-11-27T17:51:44Z)
Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文参考訳（メタデータ） (2024-11-14T07:34:31Z)
HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration [18.170285241800798]
本稿では,新しい学習ベースキャッシングフレームワークを用いて,学習と推論を調和させる新しい手法を提案する。従来の訓練パラダイムと比較して、新たに提案されたSDTは、認知プロセスの継続性を維持している。 IEPOは効率的なプロキシメカニズムを統合して、キャッシュされた機能の再使用による最終的な画像エラーを近似する。
論文参考訳（メタデータ） (2024-10-02T16:34:29Z)
TMPQ-DM: Joint Timestep Reduction and Quantization Precision Selection for Efficient Diffusion Models [40.5153344875351]
我々はTMPQ-DMを導入し、タイムステップの削減と量子化を共同で最適化し、優れた性能・効率のトレードオフを実現する。時間段階の削減のために、デノナイジング過程の非一様性に合わせた非一様グルーピングスキームを考案する。量子化の観点では、最終的な生成性能に対するそれぞれの貢献に基づいて、異なる層に異なるビット幅を割り当てる、きめ細かいレイヤーワイズアプローチを採用する。
論文参考訳（メタデータ） (2024-04-15T07:51:40Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
FRDiff : Feature Reuse for Universal Training-free Acceleration of Diffusion Models [16.940023904740585]
拡散モデルに固有の時間的冗長性を活用する高度な加速手法を提案する。時間的類似度の高い特徴マップの再利用は、出力品質を損なうことなく計算資源を節約する新たな機会を開く。
論文参考訳（メタデータ） (2023-12-06T14:24:26Z)
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文参考訳（メタデータ） (2023-11-27T12:59:52Z)
FormerTime: Hierarchical Multi-Scale Representations for Multivariate Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。 1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文参考訳（メタデータ） (2023-02-20T07:46:14Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文参考訳（メタデータ） (2022-06-09T09:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。