論文の概要: Score Distillation Sampling with Learned Manifold Corrective
- arxiv url: http://arxiv.org/abs/2401.05293v2
- Date: Thu, 4 Jul 2024 13:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:22:48.679273
- Title: Score Distillation Sampling with Learned Manifold Corrective
- Title(参考訳): 学習したマニフォールド補正によるスコア蒸留サンプリング
- Authors: Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu,
- Abstract要約: 損失を異なる要因に分解し,ノイズ勾配の原因となる成分を分離する。
オリジナルの定式化では、ノイズを考慮に入れた高いテキストガイダンスが使用され、過飽和や繰り返し詳細といった不要な副作用が生じる。
我々は,画像拡散モデルの時間依存性周波数バイアスを模倣した浅層ネットワークを訓練し,これを効果的に導出する。
- 参考スコア(独自算出の注目度): 36.963929141091455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. In this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects such as oversaturation or repeated detail. Instead, we train a shallow network mimicking the timestep-dependent frequency bias of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis.
- Abstract(参考訳): SDS(Score Distillation Sampling)は、画像拡散モデルを用いてテキストプロンプトを用いた最適化問題を制御する手法である。
本稿では、SDS損失関数の詳細な解析を行い、その定式化による固有の問題を特定し、驚くほど簡単だが効果的な修正を提案する。
具体的には、損失を異なる要因に分解し、ノイズ勾配の原因となる成分を分離する。
オリジナルの定式化では、ノイズを考慮に入れた高いテキストガイダンスが使用され、過飽和や繰り返し詳細といった不要な副作用が生じる。
その代わりに、画像拡散モデルの時間依存性周波数バイアスを模倣した浅いネットワークを訓練し、効果的に分解する。
我々は、最適化に基づく画像合成と編集、ゼロショット画像翻訳ネットワークトレーニング、テキスト・ツー・3D合成など、定性的かつ定量的な実験を通じて、新たな損失定式化の有効性と効果を実証する。
関連論文リスト
- One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Accelerating Diffusion for SAR-to-Optical Image Translation via Adversarial Consistency Distillation [5.234109158596138]
本稿では,SAR-to-optical Image translationのための新しいトレーニングフレームワークを提案する。
本手法では, 画像の明瞭度を保証し, 色変化を最小限に抑えるために, 反復推論ステップの低減に一貫性蒸留を用い, 対角学習を統合した。
その結果,提案手法は生成画像の視覚的品質を維持しつつ,推論速度を131倍向上させることを示した。
論文 参考訳(メタデータ) (2024-07-08T16:36:12Z) - Diffusion Posterior Proximal Sampling for Image Restoration [27.35952624032734]
我々は拡散に基づく画像復元のための洗練されたパラダイムを提案する。
具体的には,各生成段階における測定値と一致したサンプルを選択する。
選択に使用する候補サンプルの数は、タイムステップの信号対雑音比に基づいて適応的に決定される。
論文 参考訳(メタデータ) (2024-02-25T04:24:28Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Noise-Free Score Distillation [78.79226724549456]
ノイズフリースコア蒸留(NFSD)プロセスは、オリジナルのSDSフレームワークに最小限の変更を必要とする。
我々は,CFG尺度を用いて,事前学習したテキスト・画像拡散モデルのより効果的な蒸留を行う。
論文 参考訳(メタデータ) (2023-10-26T17:12:26Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。