論文の概要: Fast Inference Through The Reuse Of Attention Maps In Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.01008v1
- Date: Wed, 13 Dec 2023 17:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 10:06:10.093553
- Title: Fast Inference Through The Reuse Of Attention Maps In Diffusion Models
- Title(参考訳): 拡散モデルにおける注意マップの再利用による高速推論
- Authors: Rosco Hunter, {\L}ukasz Dudziak, Mohamed S. Abdelfattah, Abhinav
Mehrotra, Sourav Bhattacharya, Hongkai Wen
- Abstract要約: テキストと画像の拡散モデルは、フレキシブルでリアルな画像合成における前例のない能力を示している。
単一の画像を生成するのに必要な反復的なプロセスはコストがかかり、レイテンシが高くなる。
そこで本研究では,サンプルのステップサイズを変えない学習自由な手法を提案する。
- 参考スコア(独自算出の注目度): 15.988979805146078
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models have demonstrated unprecedented abilities at
flexible and realistic image synthesis. However, the iterative process required
to produce a single image is costly and incurs a high latency, prompting
researchers to further investigate its efficiency. Typically, improvements in
latency have been achieved in two ways: (1) training smaller models through
knowledge distillation (KD); and (2) adopting techniques from ODE-theory to
facilitate larger step sizes. In contrast, we propose a training-free approach
that does not alter the step-size of the sampler. Specifically, we find the
repeated calculation of attention maps to be both costly and redundant;
therefore, we propose a structured reuse of attention maps during sampling. Our
initial reuse policy is motivated by rudimentary ODE-theory, which suggests
that reuse is most suitable late in the sampling procedure. After noting a
number of limitations in this theoretical approach, we empirically search for a
better policy. Unlike methods that rely on KD, our reuse policies can easily be
adapted to a variety of setups in a plug-and-play manner. Furthermore, when
applied to Stable Diffusion-1.5, our reuse policies reduce latency with minimal
repercussions on sample quality.
- Abstract(参考訳): テキストと画像の拡散モデルは、フレキシブルでリアルな画像合成における前例のない能力を示している。
しかし、単一の画像を生成するのに必要な反復的なプロセスはコストがかかり、高いレイテンシが伴うため、研究者はその効率をさらに調査する必要がある。
通常、レイテンシの改善は、(1)知識蒸留(KD)によるより小さなモデルのトレーニング、(2)より大きなステップサイズを促進するためにODE理論の手法を採用する2つの方法で達成されている。
対照的に,本研究では,サンプルのステップサイズを変えない学習自由アプローチを提案する。
具体的には、注意マップの繰り返し計算はコストと冗長性の両方を考慮し、サンプリング中の注意マップの構造化再利用を提案する。
我々の初期再利用政策は初歩的なODE理論によって動機付けられており、サンプリング手順の後半には再利用が最も適していることが示唆されている。
この理論的なアプローチで多くの制限を指摘した後、私たちは経験的により良いポリシーを探します。
KDに依存する方法とは異なり、我々の再利用ポリシーはプラグアンドプレイ方式で様々な設定に容易に適応できる。
さらに,stable diffusion-1.5に適用することで,サンプル品質への影響を最小限に抑えることができる。
関連論文リスト
- Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Sequential Posterior Sampling with Diffusion Models [15.028061496012924]
条件付き画像合成における逐次拡散後サンプリングの効率を向上させるため,遷移力学をモデル化する新しい手法を提案する。
本研究では,高フレームレート心エコー画像の現実的データセットに対するアプローチの有効性を実証する。
提案手法は,画像の拡散モデルとリアルタイム推論を必要とする他の領域における拡散モデルのリアルタイム適用の可能性を開く。
論文 参考訳(メタデータ) (2024-09-09T07:55:59Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。
当社のアプローチでは,完全な拡散生成プロセスの10%未満の実行が可能であり,拡散モデルにアーキテクチャ的な変更は不要である。
論文 参考訳(メタデータ) (2024-04-12T16:23:42Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - ReDi: Efficient Learning-Free Diffusion Inference via Trajectory
Retrieval [68.7008281316644]
ReDiは学習不要なRetrievalベースの拡散サンプリングフレームワークである。
ReDi はモデル推論効率を 2 倍高速化することを示した。
論文 参考訳(メタデータ) (2023-02-05T03:01:28Z) - Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models
for Inverse Problems through Stochastic Contraction [31.61199061999173]
拡散モデルには重要な欠点がある。純粋なガウスノイズから画像を生成するために数千ステップの反復を必要とするため、サンプリングが本質的に遅い。
ガウスノイズから始めることは不要であることを示す。代わりに、より優れた初期化を伴う単一前方拡散から始めると、逆条件拡散におけるサンプリングステップの数を大幅に減少させる。
ComeCloser-DiffuseFaster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。
論文 参考訳(メタデータ) (2021-12-09T04:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。