Fugu-MT 論文翻訳(概要): Clockwork Diffusion: Efficient Generation With Model-Step Distillation

論文の概要: Clockwork Diffusion: Efficient Generation With Model-Step Distillation

arxiv url: http://arxiv.org/abs/2312.08128v2
Date: Tue, 20 Feb 2024 14:50:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 20:18:24.061037
Title: Clockwork Diffusion: Efficient Generation With Model-Step Distillation
Title（参考訳）: Clockwork Diffusion: モデルステップ蒸留による効率的な生成
Authors: Amirhossein Habibian, Amir Ghodrati, Noor Fathima, Guillaume Sautiere, Risheek Garrepalli, Fatih Porikli, Jens Petersen
Abstract要約: クロックワーク拡散(英: Clockwork Diffusion)は、1つ以上のステップで低解像度特徴写像を近似するために、前処理ステップからの計算を定期的に再利用する手法である。画像生成と画像編集の両方において、Clockworkは計算の複雑さを大幅に減らし、知覚スコアを同等または改善することを示した。
参考スコア（独自算出の注目度）: 42.01130983628078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work aims to improve the efficiency of text-to-image diffusion models. While diffusion models use computationally expensive UNet-based denoising operations in every generation step, we identify that not all operations are equally relevant for the final output quality. In particular, we observe that UNet layers operating on high-res feature maps are relatively sensitive to small perturbations. In contrast, low-res feature maps influence the semantic layout of the final image and can often be perturbed with no noticeable change in the output. Based on this observation, we propose Clockwork Diffusion, a method that periodically reuses computation from preceding denoising steps to approximate low-res feature maps at one or more subsequent steps. For multiple baselines, and for both text-to-image generation and image editing, we demonstrate that Clockwork leads to comparable or improved perceptual scores with drastically reduced computational complexity. As an example, for Stable Diffusion v1.5 with 8 DPM++ steps we save 32% of FLOPs with negligible FID and CLIP change.
Abstract（参考訳）: 本研究の目的は,テキスト・画像拡散モデルの効率化である。拡散モデルでは, 計算コストのかかるUNetベースの復調処理を各生成ステップで使用するが, 全ての演算が最終的な出力品質に等しく関連しているわけではない。特に,高解像度の特徴マップ上で動作するUNet層は,小さな摂動に対して比較的敏感である。対照的に、低解像度の特徴マップは最終画像のセマンティックなレイアウトに影響を与え、出力に顕著な変化を伴わずに摂動することができる。そこで本研究では,前回から計算を周期的に再利用し,1つ以上のステップで低解像度特徴マップを近似する手法であるクロックワーク拡散を提案する。複数のベースライン、およびテキスト対画像生成と画像編集の両方において、クロックワークが計算複雑性を劇的に低減した知覚スコアに匹敵する、あるいは改善をもたらすことを実証する。例えば、8つのdpm++ステップを持つ安定した拡散v1.5では、フロップの32%を無視できるfidとクリップ変更で節約する。

関連論文リスト

Ditto: Accelerating Diffusion Model via Temporal Value Similarity [4.5280087047319535]
量子化と時間的類似性を利用して拡散モデルの効率を向上させる差分処理アルゴリズムを提案する。また、1.5倍のスピードアップと17.74%の省エネを実現する専用ハードウェアアクセラレータであるDittoハードウェアも設計しています。
論文参考訳（メタデータ） (2025-01-20T01:03:50Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文参考訳（メタデータ） (2024-07-22T09:44:35Z)
WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文参考訳（メタデータ） (2024-07-18T11:51:01Z)
LighTDiff: Surgical Endoscopic Image Low-Light Enhancement with T-Diffusion [23.729378821117123]
Denoising Diffusion Probabilistic Model (DDPM) は、医療分野での低照度画像強調を約束する。 DDPMは計算的に要求され、遅いため、医療応用は制限されている。我々はLighTDiffと呼ばれる軽量DDPMを提案し、低解像度画像を用いてグローバルな構造情報をキャプチャする。
論文参考訳（メタデータ） (2024-05-17T05:31:19Z)
Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-12-15T08:46:43Z)
Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文参考訳（メタデータ） (2023-12-06T00:51:38Z)
Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise [15.702941058218196]
本稿では,逆拡散過程によって生成される画像の速度と品質の向上を目的とした2つの重要なコントリビューションを紹介する。最初のコントリビューションは、画像と雑音の間の四分円弧上の角度で拡散過程を再パラメータ化することである。 2つ目のコントリビューションは、私たちのネットワークを使ってイメージ(mathbfx_0$)とノイズ(mathbfepsilon$)を直接見積もることです。
論文参考訳（メタデータ） (2023-10-26T05:43:07Z)
Towards More Accurate Diffusion Model Acceleration with A Timestep Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文参考訳（メタデータ） (2023-10-14T02:19:07Z)
Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文参考訳（メタデータ） (2023-09-18T09:36:24Z)
Effective Real Image Editing with Accelerated Iterative Diffusion Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文参考訳（メタデータ） (2023-09-10T01:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。