論文の概要: Efficient Spatially Sparse Inference for Conditional GANs and Diffusion
Models
- arxiv url: http://arxiv.org/abs/2211.02048v4
- Date: Wed, 13 Sep 2023 20:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:41:02.659258
- Title: Efficient Spatially Sparse Inference for Conditional GANs and Diffusion
Models
- Title(参考訳): 条件付きGANと拡散モデルに対する効率的な空間スパース推論
- Authors: Muyang Li, Ji Lin, Chenlin Meng, Stefano Ermon, Song Han, and Jun-Yan
Zhu
- Abstract要約: 既存の深部生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。
本稿では,編集領域の計算を選択的に行う汎用手法である空間スパース推論(SSI)を提案する。
本稿では,Sparse Incremental Generative Engine (SIGE) を提案する。
- 参考スコア(独自算出の注目度): 92.24727170517335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During image editing, existing deep generative models tend to re-synthesize
the entire output from scratch, including the unedited regions. This leads to a
significant waste of computation, especially for minor editing operations. In
this work, we present Spatially Sparse Inference (SSI), a general-purpose
technique that selectively performs computation for edited regions and
accelerates various generative models, including both conditional GANs and
diffusion models. Our key observation is that users prone to gradually edit the
input image. This motivates us to cache and reuse the feature maps of the
original image. Given an edited image, we sparsely apply the convolutional
filters to the edited regions while reusing the cached features for the
unedited areas. Based on our algorithm, we further propose Sparse Incremental
Generative Engine (SIGE) to convert the computation reduction to latency
reduction on off-the-shelf hardware. With about $1\%$-area edits, SIGE
accelerates DDPM by $3.0\times$ on NVIDIA RTX 3090 and $4.6\times$ on Apple M1
Pro GPU, Stable Diffusion by $7.2\times$ on 3090, and GauGAN by $5.6\times$ on
3090 and $5.2\times$ on M1 Pro GPU. Compared to our conference version, we
extend SIGE to accommodate attention layers and apply it to Stable Diffusion.
Additionally, we offer support for Apple M1 Pro GPU and include more results
with large and sequential edits.
- Abstract(参考訳): 画像編集中、既存の深層生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。
これは特にマイナーな編集操作において、計算のかなりの無駄につながる。
本研究では、編集領域の計算を選択的に行い、条件付きGANや拡散モデルを含む様々な生成モデルを高速化する汎用手法である空間スパース推論(SSI)を提案する。
重要なのは、ユーザが入力イメージを徐々に編集する傾向があることです。
これは、元のイメージの機能マップをキャッシュして再利用する動機となります。
編集画像が与えられた場合、編集領域に畳み込みフィルタを適用し、未編集領域のキャッシュ機能を再利用する。
さらに,本アルゴリズムを用いて,Sparse Incremental Generative Engine (SIGE) を提案する。
nvidia rtx 3090では$3.0\times$、apple m1 pro gpuでは$4.6\times$、3090では$7.2\times$、3090では$5.6\times$、m1 pro gpuでは$5.2\times$である。
カンファレンスバージョンと比較して、SIGEを拡張して注意層に対応させ、安定拡散に適用します。
さらに、Apple M1 Pro GPUのサポートも提供しています。
関連論文リスト
- GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization [11.170354299559998]
本稿では,ユーザがテキストプロンプトのみを使用して,創造的で正確な編集を行うことのできる,新しい3Dシーン編集フレームワークであるGSEditProを提案する。
レンダリング中に各ガウス語に意味ラベルを追加するために、注意に基づくプログレッシブなローカライゼーションモジュールを導入する。
これにより、T2Iモデルのクロスアテンション層から派生した編集プロンプトとの関連性に基づいて、ガウスアンを分類することで、編集領域の正確なローカライズが可能になる。
論文 参考訳(メタデータ) (2024-11-15T08:25:14Z) - DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、Diffusion Transformers (DiT) の設計に従って、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5times$高いトレーニング速度を示し、メモリ解像度は75.7%$179times 1792$である。
同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2倍、解像度は1024ドルで、FlashAttention-2でDiTより1.8倍速い。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - GaussianEditor: Swift and Controllable 3D Editing with Gaussian
Splatting [66.08674785436612]
3D編集は、ゲームや仮想現実など、多くの分野で重要な役割を担っている。
メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。
本稿では,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
論文 参考訳(メタデータ) (2023-11-24T14:46:59Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Accelerating Text-to-Image Editing via Cache-Enabled Sparse Diffusion
Inference [36.73121523987844]
本稿では,高速画像セマンティック編集 (FISEdit) を導入し,効率的なテキスト・画像編集のためのキャッシュ付きスパース拡散モデル推論エンジンを提案する。
FISEditは、入力テキスト上の小さな変更と出力画像上の影響を受ける領域の間の意味マッピングを使用する。
テキスト編集ステップ毎に、FISEditは影響を受ける画像領域を自動で識別し、キャッシュされた未変更領域の特徴マップを利用して推論プロセスを高速化する。
論文 参考訳(メタデータ) (2023-05-27T09:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。