Fugu-MT 論文翻訳(概要): Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models

論文の概要: Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models

arxiv url: http://arxiv.org/abs/2211.02048v1
Date: Thu, 3 Nov 2022 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-04 12:58:33.695326
Title: Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models
Title（参考訳）: 条件付きGANと拡散モデルに対する効率的な空間スパース推論
Authors: Muyang Li, Ji Lin, Chenlin Meng, Stefano Ermon, Song Han, and Jun-Yan Zhu
Abstract要約: 既存の深部生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。本稿では,編集領域の計算を選択的に行う汎用手法である空間スパース推論(SSI)を提案する。本稿では,Sparse Incremental Generative Engine (SIGE) を提案する。
参考スコア（独自算出の注目度）: 95.82709561032812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: During image editing, existing deep generative models tend to re-synthesize the entire output from scratch, including the unedited regions. This leads to a significant waste of computation, especially for minor editing operations. In this work, we present Spatially Sparse Inference (SSI), a general-purpose technique that selectively performs computation for edited regions and accelerates various generative models, including both conditional GANs and diffusion models. Our key observation is that users tend to make gradual changes to the input image. This motivates us to cache and reuse the feature maps of the original image. Given an edited image, we sparsely apply the convolutional filters to the edited regions while reusing the cached features for the unedited regions. Based on our algorithm, we further propose Sparse Incremental Generative Engine (SIGE) to convert the computation reduction to latency reduction on off-the-shelf hardware. With 1.2%-area edited regions, our method reduces the computation of DDIM by 7.5$\times$ and GauGAN by 18$\times$ while preserving the visual fidelity. With SIGE, we accelerate the speed of DDIM by 3.0x on RTX 3090 and 6.6$\times$ on Apple M1 Pro CPU, and GauGAN by 4.2$\times$ on RTX 3090 and 14$\times$ on Apple M1 Pro CPU.
Abstract（参考訳）: 画像編集中、既存の深層生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。これは特にマイナーな編集操作において、計算のかなりの無駄につながる。本研究では、編集領域の計算を選択的に行い、条件付きGANや拡散モデルを含む様々な生成モデルを高速化する汎用手法である空間スパース推論(SSI)を提案する。重要なのは、ユーザが入力イメージを徐々に変更する傾向があることです。これは、元のイメージの機能マップをキャッシュして再利用する動機となります。編集画像が与えられた場合、編集領域に畳み込みフィルタを適用し、未編集領域のキャッシュ機能を再利用する。さらに,本アルゴリズムを用いて,Sparse Incremental Generative Engine (SIGE) を提案する。 1.2%の領域でDDIMの計算を7.5$\times$、GauGANを18$\times$に減らし、視覚的忠実度を保っている。 SIGEでは、RTX 3090ではDDIMの速度を3.0倍、Apple M1 Pro CPUでは6.6$\times$、RTX 3090では4.2$\times$、Apple M1 Pro CPUでは14$\times$で加速します。

関連論文リスト

ReSplat: Learning Recurrent Gaussian Splats [98.14472247275512]
ReSplatはフィードフォワードリカレントガウシアンスプラッティングモデルであり、明示的に勾配を計算せずに3Dガウシアンを反復的に洗練する。我々は16倍のサブサンプル空間で動作するコンパクトな再構成モデルを導入し、以前のピクセルごとのガウスモデルよりも16倍のガウスモデルを生成する。提案手法は,ガウス数を大幅に削減し,レンダリング速度を向上させるとともに,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-10-09T17:59:59Z)
Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。 VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。 1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文参考訳（メタデータ） (2025-08-21T17:59:32Z)
EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing [48.05033786803384]
本稿では,効率的な画像編集を実現するためのフレームワークであるEEditを提案する。実験では、幅広い編集タスクのパフォーマンス低下なしに平均2.46ドルの加速を実証している。
論文参考訳（メタデータ） (2025-03-13T11:26:45Z)
GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization [11.170354299559998]
本稿では,ユーザがテキストプロンプトのみを使用して,創造的で正確な編集を行うことのできる,新しい3Dシーン編集フレームワークであるGSEditProを提案する。レンダリング中に各ガウス語に意味ラベルを追加するために、注意に基づくプログレッシブなローカライゼーションモジュールを導入する。これにより、T2Iモデルのクロスアテンション層から派生した編集プロンプトとの関連性に基づいて、ガウスアンを分類することで、編集領域の正確なローカライズが可能になる。
論文参考訳（メタデータ） (2024-11-15T08:25:14Z)
DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、Diffusion Transformers (DiT) の設計に従って、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。 DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5times$高いトレーニング速度を示し、メモリ解像度は75.7%$179times 1792$である。同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2倍、解像度は1024ドルで、FlashAttention-2でDiTより1.8倍速い。
論文参考訳（メタデータ） (2024-05-28T17:59:33Z)
Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文参考訳（メタデータ） (2024-01-11T08:36:15Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting [66.08674785436612]
3D編集は、ゲームや仮想現実など、多くの分野で重要な役割を担っている。メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。本稿では,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
論文参考訳（メタデータ） (2023-11-24T14:46:59Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Accelerating Text-to-Image Editing via Cache-Enabled Sparse Diffusion Inference [36.73121523987844]
本稿では,高速画像セマンティック編集 (FISEdit) を導入し,効率的なテキスト・画像編集のためのキャッシュ付きスパース拡散モデル推論エンジンを提案する。 FISEditは、入力テキスト上の小さな変更と出力画像上の影響を受ける領域の間の意味マッピングを使用する。テキスト編集ステップ毎に、FISEditは影響を受ける画像領域を自動で識別し、キャッシュされた未変更領域の特徴マップを利用して推論プロセスを高速化する。
論文参考訳（メタデータ） (2023-05-27T09:14:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。