論文の概要: Fast Inference Through The Reuse Of Attention Maps In Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.01008v1
- Date: Wed, 13 Dec 2023 17:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 10:06:10.093553
- Title: Fast Inference Through The Reuse Of Attention Maps In Diffusion Models
- Title(参考訳): 拡散モデルにおける注意マップの再利用による高速推論
- Authors: Rosco Hunter, {\L}ukasz Dudziak, Mohamed S. Abdelfattah, Abhinav
Mehrotra, Sourav Bhattacharya, Hongkai Wen
- Abstract要約: テキストと画像の拡散モデルは、フレキシブルでリアルな画像合成における前例のない能力を示している。
単一の画像を生成するのに必要な反復的なプロセスはコストがかかり、レイテンシが高くなる。
そこで本研究では,サンプルのステップサイズを変えない学習自由な手法を提案する。
- 参考スコア(独自算出の注目度): 15.988979805146078
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models have demonstrated unprecedented abilities at
flexible and realistic image synthesis. However, the iterative process required
to produce a single image is costly and incurs a high latency, prompting
researchers to further investigate its efficiency. Typically, improvements in
latency have been achieved in two ways: (1) training smaller models through
knowledge distillation (KD); and (2) adopting techniques from ODE-theory to
facilitate larger step sizes. In contrast, we propose a training-free approach
that does not alter the step-size of the sampler. Specifically, we find the
repeated calculation of attention maps to be both costly and redundant;
therefore, we propose a structured reuse of attention maps during sampling. Our
initial reuse policy is motivated by rudimentary ODE-theory, which suggests
that reuse is most suitable late in the sampling procedure. After noting a
number of limitations in this theoretical approach, we empirically search for a
better policy. Unlike methods that rely on KD, our reuse policies can easily be
adapted to a variety of setups in a plug-and-play manner. Furthermore, when
applied to Stable Diffusion-1.5, our reuse policies reduce latency with minimal
repercussions on sample quality.
- Abstract(参考訳): テキストと画像の拡散モデルは、フレキシブルでリアルな画像合成における前例のない能力を示している。
しかし、単一の画像を生成するのに必要な反復的なプロセスはコストがかかり、高いレイテンシが伴うため、研究者はその効率をさらに調査する必要がある。
通常、レイテンシの改善は、(1)知識蒸留(KD)によるより小さなモデルのトレーニング、(2)より大きなステップサイズを促進するためにODE理論の手法を採用する2つの方法で達成されている。
対照的に,本研究では,サンプルのステップサイズを変えない学習自由アプローチを提案する。
具体的には、注意マップの繰り返し計算はコストと冗長性の両方を考慮し、サンプリング中の注意マップの構造化再利用を提案する。
我々の初期再利用政策は初歩的なODE理論によって動機付けられており、サンプリング手順の後半には再利用が最も適していることが示唆されている。
この理論的なアプローチで多くの制限を指摘した後、私たちは経験的により良いポリシーを探します。
KDに依存する方法とは異なり、我々の再利用ポリシーはプラグアンドプレイ方式で様々な設定に容易に適応できる。
さらに,stable diffusion-1.5に適用することで,サンプル品質への影響を最小限に抑えることができる。
関連論文リスト
- Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [81.0962494325732]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - ReDi: Efficient Learning-Free Diffusion Inference via Trajectory
Retrieval [68.7008281316644]
ReDiは学習不要なRetrievalベースの拡散サンプリングフレームワークである。
ReDi はモデル推論効率を 2 倍高速化することを示した。
論文 参考訳(メタデータ) (2023-02-05T03:01:28Z) - Accelerating Score-based Generative Models with Preconditioned Diffusion
Sampling [36.02321871608158]
本稿では,行列プレコンディショニングを利用して問題を緩和するPDS法を提案する。
PDSは、合成品質を維持しながら、棚外のSGMを継続的に加速する。
特に、PSDはより難しい高解像度(1024x1024)の画像生成で最大29倍加速することができる。
論文 参考訳(メタデータ) (2022-07-05T17:55:42Z) - Deblurring via Stochastic Refinement [85.42730934561101]
条件付き拡散モデルに基づくブラインドデブロアリングのための代替フレームワークを提案する。
提案手法は,PSNRなどの歪み指標の点で競合する。
論文 参考訳(メタデータ) (2021-12-05T04:36:09Z) - Cooperative Deep $Q$-learning Framework for Environments Providing Image
Feedback [5.607676459156789]
本稿では, 深層強化学習, サンプル非効率性, 遅い学習の2つの課題を, NN駆動学習の2つのアプローチで解決する。
特に、時間差(TD)誤差駆動学習手法を開発し、TD誤差の線形変換のセットを導入し、ディープNNの各層のパラメータを直接更新する。
提案手法は学習と収束を高速化し,バッファサイズの削減を必要とすることを示す。
論文 参考訳(メタデータ) (2021-10-28T17:12:41Z) - Toward Real-World Super-Resolution via Adaptive Downsampling Models [58.38683820192415]
本研究では,制約のある事前知識を伴わずに未知のサンプル処理をシミュレートする手法を提案する。
対の例を使わずに対象LR画像の分布を模倣する汎用化可能な低周波損失(LFL)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。