論文の概要: DreamSampler: Unifying Diffusion Sampling and Score Distillation for Image Manipulation
- arxiv url: http://arxiv.org/abs/2403.11415v1
- Date: Mon, 18 Mar 2024 02:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:57:28.335172
- Title: DreamSampler: Unifying Diffusion Sampling and Score Distillation for Image Manipulation
- Title(参考訳): DreamSampler:イメージ操作のための拡散サンプリングとスコア蒸留の統合
- Authors: Jeongsol Kim, Geon Yeong Park, Jong Chul Ye,
- Abstract要約: DreamSampler は任意の LDM アーキテクチャに適用可能なモデルに依存しないアプローチである。
既存のアプローチと比較して,DreamSamplerの競合性能を実証する。
- 参考スコア(独自算出の注目度): 55.274817993890714
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reverse sampling and score-distillation have emerged as main workhorses in recent years for image manipulation using latent diffusion models (LDMs). While reverse diffusion sampling often requires adjustments of LDM architecture or feature engineering, score distillation offers a simple yet powerful model-agnostic approach, but it is often prone to mode-collapsing. To address these limitations and leverage the strengths of both approaches, here we introduce a novel framework called {\em DreamSampler}, which seamlessly integrates these two distinct approaches through the lens of regularized latent optimization. Similar to score-distillation, DreamSampler is a model-agnostic approach applicable to any LDM architecture, but it allows both distillation and reverse sampling with additional guidance for image editing and reconstruction. Through experiments involving image editing, SVG reconstruction and etc, we demonstrate the competitive performance of DreamSampler compared to existing approaches, while providing new applications.
- Abstract(参考訳): 近年,潜時拡散モデル (LDM) を用いた画像操作において, 逆サンプリングとスコア蒸留が主要な作業場として出現している。
逆拡散サンプリングは、しばしばLCMアーキテクチャや特徴工学の調整を必要とするが、スコア蒸留は単純だが強力なモデルに依存しないアプローチを提供するが、モード崩壊の傾向がしばしばある。
これらの制限に対処し、両方のアプローチの長所を活用するために、正規化潜在最適化のレンズを通してこれらの2つの異なるアプローチをシームレスに統合する、 {\em DreamSampler} という新しいフレームワークを導入する。
スコア蒸留と同様に、ドリームサンプラーは任意のLCMアーキテクチャに適用できるモデルに依存しないアプローチであるが、蒸留と逆サンプリングの両方が可能であり、画像編集と再構成のための追加のガイダンスがある。
画像編集,SVG再構成などの実験を通じて,既存のアプローチと比較して,DreamSamplerの競争性能を実証し,新しいアプリケーションを提供する。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Multistep Distillation of Diffusion Models via Moment Matching [29.235113968156433]
本稿では,拡散モデルをより高速にサンプル化するための新しい手法を提案する。
本手法は,クリーンデータの条件付き期待値に適合して,多段階拡散モデルを数段階モデルに蒸留する。
我々は、Imagenetデータセット上で、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2024-06-06T14:20:21Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Conditional Distribution Modelling for Few-Shot Image Synthesis with Diffusion Models [29.821909424996015]
少ないショット画像合成は、いくつかの例画像のみを使用して、斬新なカテゴリの多彩で現実的な画像を生成する。
本研究では,ディフュージョンモデルを利用した条件分布モデル (CDM) を提案する。
論文 参考訳(メタデータ) (2024-04-25T12:11:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Deep Equilibrium Approaches to Diffusion Models [1.4275201654498746]
拡散に基づく生成モデルは高品質な画像を生成するのに極めて効果的である。
これらのモデルは通常、高忠実度画像を生成するために長いサンプリングチェーンを必要とする。
我々は、異なる観点からの拡散モデル、すなわち(深い)平衡(DEQ)固定点モデルについて考察する。
論文 参考訳(メタデータ) (2022-10-23T22:02:19Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Toward Real-World Super-Resolution via Adaptive Downsampling Models [58.38683820192415]
本研究では,制約のある事前知識を伴わずに未知のサンプル処理をシミュレートする手法を提案する。
対の例を使わずに対象LR画像の分布を模倣する汎用化可能な低周波損失(LFL)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。