論文の概要: Gradient-free Decoder Inversion in Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.18442v1
- Date: Fri, 27 Sep 2024 04:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 06:11:53.166818
- Title: Gradient-free Decoder Inversion in Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルにおけるグラディエントフリーデコーダインバージョン
- Authors: Seongmin Hong, Suh Yoon Jeon, Kyeonghyun Lee, Ernest K. Ryu, Se Young Chun,
- Abstract要約: 潜時拡散モデル(LDMs)では、遅延拡散過程は、ピクセル空間よりも次元が低い潜時空間で効率的に発生する。
本稿では,多種多様な潜在モデルに適用可能なLDMの高効率勾配自由デコーダインバージョンを提案する。
- 参考スコア(独自算出の注目度): 18.493960162113712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In latent diffusion models (LDMs), denoising diffusion process efficiently takes place on latent space whose dimension is lower than that of pixel space. Decoder is typically used to transform the representation in latent space to that in pixel space. While a decoder is assumed to have an encoder as an accurate inverse, exact encoder-decoder pair rarely exists in practice even though applications often require precise inversion of decoder. Prior works for decoder inversion in LDMs employed gradient descent inspired by inversions of generative adversarial networks. However, gradient-based methods require larger GPU memory and longer computation time for larger latent space. For example, recent video LDMs can generate more than 16 frames, but GPUs with 24 GB memory can only perform gradient-based decoder inversion for 4 frames. Here, we propose an efficient gradient-free decoder inversion for LDMs, which can be applied to diverse latent models. Theoretical convergence property of our proposed inversion has been investigated not only for the forward step method, but also for the inertial Krasnoselskii-Mann (KM) iterations under mild assumption on cocoercivity that is satisfied by recent LDMs. Our proposed gradient-free method with Adam optimizer and learning rate scheduling significantly reduced computation time and memory usage over prior gradient-based methods and enabled efficient computation in applications such as noise-space watermarking while achieving comparable error levels.
- Abstract(参考訳): 潜時拡散モデル(LDMs)では、遅延拡散過程は、ピクセル空間よりも次元が低い潜時空間で効率的に発生する。
デコーダは通常、潜在空間の表現をピクセル空間の表現に変換するために使われる。
デコーダは、正確な逆転としてエンコーダを持つと仮定されるが、デコーダの正確な逆転を必要とするアプリケーションが多いにもかかわらず、実際には、正確なエンコーダとデコーダのペアはほとんど存在しない。
LDMにおけるデコーダの逆転の以前の研究は、生成的対向ネットワークの逆転にインスパイアされた勾配勾配を用いた。
しかし、勾配に基づく手法では、より大きなGPUメモリとより大きな潜在空間に対するより長い計算時間を必要とする。
例えば、最近のビデオLDMは16フレーム以上を生成することができるが、24GBのメモリを持つGPUは4フレームに対して勾配ベースのデコーダインバージョンしか実行できない。
そこで本研究では,多種多様な潜在モデルに適用可能な,LDMに対する効率的な勾配のないデコーダインバージョンを提案する。
提案した逆変換の理論的収束性は、前進法だけでなく、最近のLCDで満たされるココエロシティを軽度に仮定した慣性クラスノセルスキーマン(KM)反復に対しても検討されている。
本稿では,Adamオプティマイザとラーニングレートスケジューリングを用いたグラデーションフリー手法により,従来の勾配法よりも計算時間とメモリ使用量を有意に削減し,ノイズ空間透かしなどのアプリケーションにおいて,同等の誤差レベルを達成しつつ,効率的な計算を可能にした。
関連論文リスト
- Moonwalk: Inverse-Forward Differentiation [4.425689868461635]
フォワードモード勾配計算は、可逆ネットワークにおいて代替となる。
ムーンウォークは、バックプロパゲーションに匹敵する計算時間における可逆的ネットワークの真の勾配を計算する最初のフォワードベースの方法である。
論文 参考訳(メタデータ) (2024-02-22T01:33:31Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - FastSGD: A Fast Compressed SGD Framework for Distributed Machine
Learning [16.542846343774357]
Gradient Descent(SGD)は、分散機械学習(ML)のワークホースアルゴリズムであることは間違いない。
FastSGDは勾配をキー-値ペアとして表現し、勾配キーと値の両方を線形時間複雑性で圧縮する。
FastSGDは最大4桁の圧縮比を達成し、最先端の手法と比較して収束時間を最大8倍に加速する。
論文 参考訳(メタデータ) (2021-12-08T13:56:24Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Gradient flow encoding with distance optimization adaptive step size [10.973034520723957]
グラデーションフローを用いて潜在空間内のデータサンプルをエンコードするデコーダのみの手法を検討する。
私たちの実験では、GFEは自動符号化モデルよりもはるかに高いデータ効率を示しました。
論文 参考訳(メタデータ) (2021-05-11T13:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。