Fugu-MT 論文翻訳(概要): Cache Me if You Can: Accelerating Diffusion Models through Block Caching

論文の概要: Cache Me if You Can: Accelerating Diffusion Models through Block Caching

arxiv url: http://arxiv.org/abs/2312.03209v2
Date: Fri, 12 Jan 2024 09:26:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 23:54:02.117771
Title: Cache Me if You Can: Accelerating Diffusion Models through Block Caching
Title（参考訳）: キャッシュ可能ならば: ブロックキャッシングによる拡散モデルの高速化
Authors: Felix Wimbauer, Bichen Wu, Edgar Schoenfeld, Xiaoliang Dai, Ji Hou, Zijian He, Artsiom Sanakoyeu, Peizhao Zhang, Sam Tsai, Jonas Kohler, Christian Rupprecht, Daniel Cremers, Peter Vajda, Jialiang Wang
Abstract要約: 画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
参考スコア（独自算出の注目度）: 67.54820800003375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have recently revolutionized the field of image synthesis due to their ability to generate photorealistic images. However, one of the major drawbacks of diffusion models is that the image generation process is costly. A large image-to-image network has to be applied many times to iteratively refine an image from random noise. While many recent works propose techniques to reduce the number of required steps, they generally treat the underlying denoising network as a black box. In this work, we investigate the behavior of the layers within the network and find that 1) the layers' output changes smoothly over time, 2) the layers show distinct patterns of change, and 3) the change from step to step is often very small. We hypothesize that many layer computations in the denoising network are redundant. Leveraging this, we introduce block caching, in which we reuse outputs from layer blocks of previous steps to speed up inference. Furthermore, we propose a technique to automatically determine caching schedules based on each block's changes over timesteps. In our experiments, we show through FID, human evaluation and qualitative analysis that Block Caching allows to generate images with higher visual quality at the same computational cost. We demonstrate this for different state-of-the-art models (LDM and EMU) and solvers (DDIM and DPM).
Abstract（参考訳）: 拡散モデルは最近、フォトリアリスティックな画像を生成する能力によって画像合成の分野に革命をもたらした。しかしながら、拡散モデルの主な欠点の一つは、画像生成プロセスがコストがかかることである。ランダムノイズから画像を反復的に洗練するために、大規模な画像対画像ネットワークを何度も適用する必要がある。近年の多くの研究は必要なステップ数を減らす手法を提案しているが、一般に根底にある認知ネットワークをブラックボックスとして扱う。本研究では,ネットワーク内のレイヤの挙動を調査し,それを検出する。 1) レイヤの出力は時間とともにスムーズに変化する。 2) 層は変化の異なるパターンを示し、 3) ステップからステップへの変更は、しばしば非常に小さい。我々はデノナイジングネットワークにおける多くの層計算が冗長であると仮定する。これを活用して、従来のステップのレイヤブロックからの出力を再利用して推論を高速化するブロックキャッシュを導入します。さらに,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。実験では,FID,人体評価,定性解析により,Block Cachingは,同じ計算コストで高画質の画像を生成することができることを示した。我々は、異なる最先端モデル(LDMとEMU)と解法(DDIMとDPM)に対してこれを実証する。

関連論文リスト

Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。推論とトレーニングの両方の観点からこの問題に対処します。提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文参考訳（メタデータ） (2024-06-22T04:56:16Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
Clockwork Diffusion: Efficient Generation With Model-Step Distillation [42.01130983628078]
クロックワーク拡散(英: Clockwork Diffusion)は、1つ以上のステップで低解像度特徴写像を近似するために、前処理ステップからの計算を定期的に再利用する手法である。画像生成と画像編集の両方において、Clockworkは計算の複雑さを大幅に減らし、知覚スコアを同等または改善することを示した。
論文参考訳（メタデータ） (2023-12-13T13:30:27Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文参考訳（メタデータ） (2022-12-06T13:30:18Z)
Improving Diffusion Model Efficiency Through Patching [0.0]
単純なViTスタイルのパッチ変換を追加することで,拡散モデルのサンプリング時間とメモリ使用量を大幅に削減できることがわかった。我々は,拡散モデル対象の分析とLSUN教会, ImageNet 256, FFHQ 1024における実証実験を通じてアプローチを正当化する。
論文参考訳（メタデータ） (2022-07-09T18:21:32Z)
Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文参考訳（メタデータ） (2022-03-08T11:20:40Z)
Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。固定重み付きイメージオートエンコーダアーキテクチャから始める。各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文参考訳（メタデータ） (2020-08-13T09:02:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。