論文の概要: Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion
Models
- arxiv url: http://arxiv.org/abs/2312.09608v1
- Date: Fri, 15 Dec 2023 08:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:37:38.686580
- Title: Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion
Models
- Title(参考訳): 高速拡散: 拡散モデルにおけるUNetエンコーダの役割を再考する
- Authors: Senmao Li, Taihang Hu, Fahad Shahbaz Khan, Linxuan Li, Shiqi Yang,
Yaxing Wang, Ming-Ming Cheng and Jian Yang
- Abstract要約: UNetエンコーダの最初の包括的な研究を行う。
エンコーダの特徴は緩やかに変化するが,デコーダの特徴は時間経過によって大きく変化する。
伝搬方式の利点を生かして,特定の時間ステップでデコーダを並列に実行することが可能となる。
- 参考スコア(独自算出の注目度): 95.47438940934413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key components within diffusion models is the UNet for noise
prediction. While several works have explored basic properties of the UNet
decoder, its encoder largely remains unexplored. In this work, we conduct the
first comprehensive study of the UNet encoder. We empirically analyze the
encoder features and provide insights to important questions regarding their
changes at the inference process. In particular, we find that encoder features
change gently, whereas the decoder features exhibit substantial variations
across different time-steps. This finding inspired us to omit the encoder at
certain adjacent time-steps and reuse cyclically the encoder features in the
previous time-steps for the decoder. Further based on this observation, we
introduce a simple yet effective encoder propagation scheme to accelerate the
diffusion sampling for a diverse set of tasks. By benefiting from our
propagation scheme, we are able to perform in parallel the decoder at certain
adjacent time-steps. Additionally, we introduce a prior noise injection method
to improve the texture details in the generated image. Besides the standard
text-to-image task, we also validate our approach on other tasks:
text-to-video, personalized generation and reference-guided generation. Without
utilizing any knowledge distillation technique, our approach accelerates both
the Stable Diffusion (SD) and the DeepFloyd-IF models sampling by 41$\%$ and
24$\%$ respectively, while maintaining high-quality generation performance. Our
code is available in
\href{https://github.com/hutaiHang/Faster-Diffusion}{FasterDiffusion}.
- Abstract(参考訳): 拡散モデルにおける重要なコンポーネントの1つは、ノイズ予測のためのUNetである。
unetデコーダの基本特性を探求するいくつかの作品があるが、そのエンコーダはほとんど未調査のままである。
本稿では、unetエンコーダに関する最初の包括的な研究を行う。
我々は,エンコーダの特徴を実証的に分析し,推論プロセスにおけるその変化に関する重要な質問に対する洞察を提供する。
特に,エンコーダの特徴は緩やかに変化するが,デコーダの特徴は時間段階によって大きく異なる。
この発見は、エンコーダを特定の隣接した時間ステップで省略し、デコーダの以前の時間ステップのエンコーダ機能を循環的に再利用するきっかけとなった。
さらに,この観察に基づいて,多様なタスクの拡散サンプリングを高速化する簡易かつ効果的なエンコーダ伝搬方式を提案する。
伝搬方式の利点を生かして,特定の時間ステップでデコーダを並列に実行することが可能となる。
さらに,生成画像のテクスチャ詳細を改善するために,先行的なノイズ注入法を提案する。
標準のテキスト・ツー・イメージタスクに加えて、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクにもアプローチを検証する。
提案手法は, 知識蒸留技術を用いずに, 安定拡散(SD)モデルとDeepFloyd-IFモデルの両方を41$\%および24$\%でサンプリングし, 高品質な生成性能を維持しながら高速化する。
私たちのコードは \href{https://github.com/hutaiHang/Faster-Diffusion}{FasterDiffusion} で利用可能です。
関連論文リスト
- Take an Irregular Route: Enhance the Decoder of Time-Series Forecasting
Transformer [9.281993269355544]
本稿では,エンコーダとデコーダのボトムアップおよびトップダウンアーキテクチャを利用して,完全かつ合理的な階層を構築するためのFPPformerを提案する。
6つの最先端ベンチマークによる大規模な実験は、FPPformerの有望な性能を検証する。
論文 参考訳(メタデータ) (2023-12-10T06:50:56Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models [29.468888611690346]
本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
論文 参考訳(メタデータ) (2023-10-16T04:27:36Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Investigating Pre-trained Audio Encoders in the Low-Resource Condition [66.92823764664206]
低リソース環境下で3つの最先端エンコーダ(Wav2vec2,WavLM,Whisper)を用いて総合的な実験を行う。
本稿では,タスク性能,収束速度,エンコーダの表現特性に関する定量的,定性的な分析を行った。
論文 参考訳(メタデータ) (2023-05-28T14:15:19Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。