論文の概要: Efficient Spatially Sparse Inference for Conditional GANs and Diffusion
Models
- arxiv url: http://arxiv.org/abs/2211.02048v1
- Date: Thu, 3 Nov 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:58:33.695326
- Title: Efficient Spatially Sparse Inference for Conditional GANs and Diffusion
Models
- Title(参考訳): 条件付きGANと拡散モデルに対する効率的な空間スパース推論
- Authors: Muyang Li, Ji Lin, Chenlin Meng, Stefano Ermon, Song Han, and Jun-Yan
Zhu
- Abstract要約: 既存の深部生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。
本稿では,編集領域の計算を選択的に行う汎用手法である空間スパース推論(SSI)を提案する。
本稿では,Sparse Incremental Generative Engine (SIGE) を提案する。
- 参考スコア(独自算出の注目度): 95.82709561032812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During image editing, existing deep generative models tend to re-synthesize
the entire output from scratch, including the unedited regions. This leads to a
significant waste of computation, especially for minor editing operations. In
this work, we present Spatially Sparse Inference (SSI), a general-purpose
technique that selectively performs computation for edited regions and
accelerates various generative models, including both conditional GANs and
diffusion models. Our key observation is that users tend to make gradual
changes to the input image. This motivates us to cache and reuse the feature
maps of the original image. Given an edited image, we sparsely apply the
convolutional filters to the edited regions while reusing the cached features
for the unedited regions. Based on our algorithm, we further propose Sparse
Incremental Generative Engine (SIGE) to convert the computation reduction to
latency reduction on off-the-shelf hardware. With 1.2%-area edited regions, our
method reduces the computation of DDIM by 7.5$\times$ and GauGAN by 18$\times$
while preserving the visual fidelity. With SIGE, we accelerate the speed of
DDIM by 3.0x on RTX 3090 and 6.6$\times$ on Apple M1 Pro CPU, and GauGAN by
4.2$\times$ on RTX 3090 and 14$\times$ on Apple M1 Pro CPU.
- Abstract(参考訳): 画像編集中、既存の深層生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。
これは特にマイナーな編集操作において、計算のかなりの無駄につながる。
本研究では、編集領域の計算を選択的に行い、条件付きGANや拡散モデルを含む様々な生成モデルを高速化する汎用手法である空間スパース推論(SSI)を提案する。
重要なのは、ユーザが入力イメージを徐々に変更する傾向があることです。
これは、元のイメージの機能マップをキャッシュして再利用する動機となります。
編集画像が与えられた場合、編集領域に畳み込みフィルタを適用し、未編集領域のキャッシュ機能を再利用する。
さらに,本アルゴリズムを用いて,Sparse Incremental Generative Engine (SIGE) を提案する。
1.2%の領域でDDIMの計算を7.5$\times$、GauGANを18$\times$に減らし、視覚的忠実度を保っている。
SIGEでは、RTX 3090ではDDIMの速度を3.0倍、Apple M1 Pro CPUでは6.6$\times$、RTX 3090では4.2$\times$、Apple M1 Pro CPUでは14$\times$で加速します。
関連論文リスト
- Object-Centric Diffusion for Efficient Video Editing [68.57451836510208]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - GaussianEditor: Editing 3D Gaussians Delicately with Text Instructions [96.97338816861813]
本稿では,3Dガウスアンによる3Dシーンをテキストで微妙に編集する,GaussianEditorという体系的フレームワークを提案する。
我々のフレームワークは、トレーニング速度をはるかに速くしながら、従来の方法よりも繊細で正確な3Dシーンの編集を実現できる。
論文 参考訳(メタデータ) (2023-11-27T17:58:21Z) - GaussianEditor: Swift and Controllable 3D Editing with Gaussian
Splatting [66.08674785436612]
3D編集は、ゲームや仮想現実など、多くの分野で重要な役割を担っている。
メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。
本稿では,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
論文 参考訳(メタデータ) (2023-11-24T14:46:59Z) - Accelerating Text-to-Image Editing via Cache-Enabled Sparse Diffusion
Inference [36.73121523987844]
本稿では,高速画像セマンティック編集 (FISEdit) を導入し,効率的なテキスト・画像編集のためのキャッシュ付きスパース拡散モデル推論エンジンを提案する。
FISEditは、入力テキスト上の小さな変更と出力画像上の影響を受ける領域の間の意味マッピングを使用する。
テキスト編集ステップ毎に、FISEditは影響を受ける画像領域を自動で識別し、キャッシュされた未変更領域の特徴マップを利用して推論プロセスを高速化する。
論文 参考訳(メタデータ) (2023-05-27T09:14:03Z) - I$^2$SB: Image-to-Image Schr\"odinger Bridge [87.43524087956457]
Image-to-Image Schr"odinger Bridge (I$2$SB) は条件拡散モデルの新しいクラスである。
I$2$SB は、2つの与えられた分布間の非線形拡散過程を直接学習する。
I$2$SBは、より解釈可能な生成過程を持つ標準条件拡散モデルを超えることを示す。
論文 参考訳(メタデータ) (2023-02-12T08:35:39Z) - Energon: Towards Efficient Acceleration of Transformers Using Dynamic
Sparse Attention [5.495006023171481]
トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで有望なパフォーマンスを示した。
本研究では,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。
我々はエネルゴンが161Times$と8.4times$ジオ平均スピードアップを達成し、最大104times$と103times$エネルギー還元を達成することを示した。
論文 参考訳(メタデータ) (2021-10-18T13:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。