Fugu-MT 論文翻訳(概要): Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models

論文の概要: Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models

arxiv url: http://arxiv.org/abs/2312.09608v1
Date: Fri, 15 Dec 2023 08:46:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 16:37:38.686580
Title: Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models
Title（参考訳）: 高速拡散: 拡散モデルにおけるUNetエンコーダの役割を再考する
Authors: Senmao Li, Taihang Hu, Fahad Shahbaz Khan, Linxuan Li, Shiqi Yang, Yaxing Wang, Ming-Ming Cheng and Jian Yang
Abstract要約: UNetエンコーダの最初の包括的な研究を行う。エンコーダの特徴は緩やかに変化するが,デコーダの特徴は時間経過によって大きく変化する。伝搬方式の利点を生かして,特定の時間ステップでデコーダを並列に実行することが可能となる。
参考スコア（独自算出の注目度）: 95.47438940934413
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the key components within diffusion models is the UNet for noise prediction. While several works have explored basic properties of the UNet decoder, its encoder largely remains unexplored. In this work, we conduct the first comprehensive study of the UNet encoder. We empirically analyze the encoder features and provide insights to important questions regarding their changes at the inference process. In particular, we find that encoder features change gently, whereas the decoder features exhibit substantial variations across different time-steps. This finding inspired us to omit the encoder at certain adjacent time-steps and reuse cyclically the encoder features in the previous time-steps for the decoder. Further based on this observation, we introduce a simple yet effective encoder propagation scheme to accelerate the diffusion sampling for a diverse set of tasks. By benefiting from our propagation scheme, we are able to perform in parallel the decoder at certain adjacent time-steps. Additionally, we introduce a prior noise injection method to improve the texture details in the generated image. Besides the standard text-to-image task, we also validate our approach on other tasks: text-to-video, personalized generation and reference-guided generation. Without utilizing any knowledge distillation technique, our approach accelerates both the Stable Diffusion (SD) and the DeepFloyd-IF models sampling by 41$\%$ and 24$\%$ respectively, while maintaining high-quality generation performance. Our code is available in \href{https://github.com/hutaiHang/Faster-Diffusion}{FasterDiffusion}.
Abstract（参考訳）: 拡散モデルにおける重要なコンポーネントの1つは、ノイズ予測のためのUNetである。 unetデコーダの基本特性を探求するいくつかの作品があるが、そのエンコーダはほとんど未調査のままである。本稿では、unetエンコーダに関する最初の包括的な研究を行う。我々は,エンコーダの特徴を実証的に分析し,推論プロセスにおけるその変化に関する重要な質問に対する洞察を提供する。特に,エンコーダの特徴は緩やかに変化するが,デコーダの特徴は時間段階によって大きく異なる。この発見は、エンコーダを特定の隣接した時間ステップで省略し、デコーダの以前の時間ステップのエンコーダ機能を循環的に再利用するきっかけとなった。さらに,この観察に基づいて,多様なタスクの拡散サンプリングを高速化する簡易かつ効果的なエンコーダ伝搬方式を提案する。伝搬方式の利点を生かして,特定の時間ステップでデコーダを並列に実行することが可能となる。さらに,生成画像のテクスチャ詳細を改善するために,先行的なノイズ注入法を提案する。標準のテキスト・ツー・イメージタスクに加えて、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクにもアプローチを検証する。提案手法は, 知識蒸留技術を用いずに, 安定拡散(SD)モデルとDeepFloyd-IFモデルの両方を41$\%および24$\%でサンプリングし, 高品質な生成性能を維持しながら高速化する。私たちのコードは \href{https://github.com/hutaiHang/Faster-Diffusion}{FasterDiffusion} で利用可能です。

関連論文リスト

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。遺伝子前駆体への過度な依存から生じる忠実性を改善する。既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文参考訳（メタデータ） (2025-08-07T02:24:03Z)
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文参考訳（メタデータ） (2025-05-28T04:23:22Z)
DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。 textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT) textbfcolorddtTransformer(textbfcolorddtDDT) textbfcolorddtTransformer(textbfcolorddtDDT)
論文参考訳（メタデータ） (2025-04-08T07:17:45Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
$ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文参考訳（メタデータ） (2024-10-05T08:27:53Z)
Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-07T10:57:54Z)
Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文参考訳（メタデータ） (2024-03-15T12:45:40Z)
Clockwork Diffusion: Efficient Generation With Model-Step Distillation [42.01130983628078]
クロックワーク拡散(英: Clockwork Diffusion)は、1つ以上のステップで低解像度特徴写像を近似するために、前処理ステップからの計算を定期的に再利用する手法である。画像生成と画像編集の両方において、Clockworkは計算の複雑さを大幅に減らし、知覚スコアを同等または改善することを示した。
論文参考訳（メタデータ） (2023-12-13T13:30:27Z)
DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文参考訳（メタデータ） (2023-11-15T01:01:02Z)
Towards More Accurate Diffusion Model Acceleration with A Timestep Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文参考訳（メタデータ） (2023-10-14T02:19:07Z)
Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文参考訳（メタデータ） (2023-07-17T07:12:29Z)
Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文参考訳（メタデータ） (2022-09-14T21:53:27Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。