論文の概要: Approximate Caching for Efficiently Serving Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.04429v1
- Date: Thu, 7 Dec 2023 16:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:07:56.430375
- Title: Approximate Caching for Efficiently Serving Diffusion Models
- Title(参考訳): 効率的な拡散モデルのための近似キャッシング
- Authors: Shubham Agarwal, Subrata Mitra, Sarthak Chakraborty, Srikrishna
Karanam, Koyel Mukherjee, Shiv Saini
- Abstract要約: 本稿では,プロンプトに基づく画像生成において,そのような反復的なデノゲーションステップを削減できる近似キャッシング手法を提案する。
本稿では,キャッシュ管理を新たに導入したNirvanaについて概説する。
- 参考スコア(独自算出の注目度): 13.426080562080102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation using diffusion models has seen explosive popularity
owing to their ability in producing high quality images adhering to text
prompts. However, production-grade diffusion model serving is a resource
intensive task that not only require high-end GPUs which are expensive but also
incurs considerable latency. In this paper, we introduce a technique called
approximate-caching that can reduce such iterative denoising steps for an image
generation based on a prompt by reusing intermediate noise states created
during a prior image generation for similar prompts. Based on this idea, we
present an end to end text-to-image system, Nirvana, that uses the
approximate-caching with a novel cache management-policy Least Computationally
Beneficial and Frequently Used (LCBFU) to provide % GPU compute savings, 19.8%
end-to-end latency reduction and 19% dollar savings, on average, on two real
production workloads. We further present an extensive characterization of real
production text-to-image prompts from the perspective of caching, popularity
and reuse of intermediate states in a large production environment.
- Abstract(参考訳): 拡散モデルを用いたテキスト画像生成は,テキストプロンプトに付着した高品質な画像を生成する能力により,爆発的に普及している。
しかし、プロダクショングレードの拡散モデル提供はリソース集約的なタスクであり、高価なだけでなくかなりの遅延を引き起こすハイエンドGPUを必要とする。
本稿では,先行画像生成中に生成された中間ノイズ状態を類似のプロンプトに再利用することにより,プロンプトに基づく画像生成の反復的デノージングステップを削減できる近似キャッシング手法を提案する。
そこで本研究では,2つの実運用ワークロードにおいて,計算効率が低く,かつ多用される新しいキャッシュ管理方式 (lcbfu) を用いたエンド・ツー・エンドのテキスト・ツー・イメージシステム (nirvana) を提案する。
さらに,大規模な実運用環境における中間状態のキャッシング,人気,再利用の観点から,実運用テキストから画像へのプロンプトの広範なキャラクタリゼーションを提案する。
関連論文リスト
- Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models [51.3915762595891]
本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
論文 参考訳(メタデータ) (2024-11-02T08:42:48Z) - SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文 参考訳(メタデータ) (2024-07-22T09:44:35Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Model-Agnostic Human Preference Inversion in Diffusion Models [31.992947353231564]
人間の好みに合わせて高品質なワンステップ画像生成を実現するための新しいサンプリング設計を提案する。
提案手法であるPrompt Adaptive Human Preference Inversion (PAHI) は,人間の好みに基づいて各プロンプトの雑音分布を最適化する。
実験により, 調整したノイズ分布は, 計算コストを極端に増加させるだけで, 画像品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-04-01T03:18:12Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image
Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。
我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文 参考訳(メタデータ) (2023-06-01T13:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。