論文の概要: Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference
- arxiv url: http://arxiv.org/abs/2312.09608v2
- Date: Tue, 15 Oct 2024 07:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:16.374259
- Title: Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference
- Title(参考訳): 高速拡散:拡散モデル推論におけるエンコーダの役割を再考する
- Authors: Senmao Li, Taihang Hu, Joost van de Weijer, Fahad Shahbaz Khan, Tao Liu, Linxuan Li, Shiqi Yang, Yaxing Wang, Ming-Ming Cheng, Jian Yang,
- Abstract要約: 本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 95.42299246592756
- License:
- Abstract: One of the main drawback of diffusion models is the slow inference time for image generation. Among the most successful approaches to addressing this problem are distillation methods. However, these methods require considerable computational resources. In this paper, we take another approach to diffusion model acceleration. We conduct a comprehensive study of the UNet encoder and empirically analyze the encoder features. This provides insights regarding their changes during the inference process. In particular, we find that encoder features change minimally, whereas the decoder features exhibit substantial variations across different time-steps. This insight motivates us to omit encoder computation at certain adjacent time-steps and reuse encoder features of previous time-steps as input to the decoder in multiple time-steps. Importantly, this allows us to perform decoder computation in parallel, further accelerating the denoising process. Additionally, we introduce a prior noise injection method to improve the texture details in the generated image. Besides the standard text-to-image task, we also validate our approach on other tasks: text-to-video, personalized generation and reference-guided generation. Without utilizing any knowledge distillation technique, our approach accelerates both the Stable Diffusion (SD) and DeepFloyd-IF model sampling by 41$\%$ and 24$\%$ respectively, and DiT model sampling by 34$\%$, while maintaining high-quality generation performance.
- Abstract(参考訳): 拡散モデルの主な欠点の1つは、画像生成の遅い推論時間である。
この問題に対処する最も成功したアプローチは蒸留法である。
しかし、これらの方法はかなりの計算資源を必要とする。
本稿では,拡散モデル加速度に対する別のアプローチを提案する。
我々は、UNetエンコーダの包括的な研究を行い、エンコーダの特徴を実証的に分析する。
これは、推論プロセスにおける彼らの変化に関する洞察を提供する。
特に、エンコーダの特徴は最小限に変化するが、デコーダの特徴は時間ステップによって大きく異なる。
この知見は、ある隣接する時間ステップでのエンコーダ計算を省略し、複数の時間ステップでデコーダへの入力として、以前の時間ステップのエンコーダ機能を再利用する動機となっている。
これによりデコーダ計算を並列に行うことができ、さらにデノーズ処理を高速化できます。
さらに、生成画像のテクスチャの詳細を改善するために、先行ノイズ注入法を導入する。
標準のテキスト・ツー・イメージタスクに加えて、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクにもアプローチを検証する。
本手法は, 知識蒸留技術を用いずに, 安定拡散法(SD)とDeepFloyd-IFモデルサンプリングをそれぞれ41$\%$, 24$\%$, DiTモデルサンプリングを34$\%$, 高品質な生成性能を維持しながら高速化する。
関連論文リスト
- Take an Irregular Route: Enhance the Decoder of Time-Series Forecasting
Transformer [9.281993269355544]
本稿では,エンコーダとデコーダのボトムアップおよびトップダウンアーキテクチャを利用して,完全かつ合理的な階層を構築するためのFPPformerを提案する。
6つの最先端ベンチマークによる大規模な実験は、FPPformerの有望な性能を検証する。
論文 参考訳(メタデータ) (2023-12-10T06:50:56Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models [29.468888611690346]
本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
論文 参考訳(メタデータ) (2023-10-16T04:27:36Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Investigating Pre-trained Audio Encoders in the Low-Resource Condition [66.92823764664206]
低リソース環境下で3つの最先端エンコーダ(Wav2vec2,WavLM,Whisper)を用いて総合的な実験を行う。
本稿では,タスク性能,収束速度,エンコーダの表現特性に関する定量的,定性的な分析を行った。
論文 参考訳(メタデータ) (2023-05-28T14:15:19Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。