論文の概要: DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing
- arxiv url: http://arxiv.org/abs/2306.14435v2
- Date: Tue, 27 Jun 2023 11:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 10:07:43.137036
- Title: DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing
- Title(参考訳): DragDiffusion:インタラクティブなポイントベース画像編集のための拡散モデル
- Authors: Yujun Shi, Chuhui Xue, Jiachun Pan, Wenqing Zhang, Vincent Y. F. Tan,
Song Bai
- Abstract要約: DragGANは、インタラクティブなポイントベースの画像編集フレームワークを提供し、ピクセルレベルの精度で印象的な編集結果を実現する。
本研究では,このような編集フレームワークを拡散モデルに拡張し,DragDiffusionを提案する。
大規模な事前学習拡散モデルを利用することで、実世界のシナリオにおける対話的ポイントベース編集の適用性を大幅に向上する。
- 参考スコア(独自算出の注目度): 91.12305858787684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise and controllable image editing is a challenging task that has
attracted significant attention. Recently, DragGAN enables an interactive
point-based image editing framework and achieves impressive editing results
with pixel-level precision. However, since this method is based on generative
adversarial networks (GAN), its generality is upper-bounded by the capacity of
the pre-trained GAN models. In this work, we extend such an editing framework
to diffusion models and propose DragDiffusion. By leveraging large-scale
pretrained diffusion models, we greatly improve the applicability of
interactive point-based editing in real world scenarios. While most existing
diffusion-based image editing methods work on text embeddings, DragDiffusion
optimizes the diffusion latent to achieve precise spatial control. Although
diffusion models generate images in an iterative manner, we empirically show
that optimizing diffusion latent at one single step suffices to generate
coherent results, enabling DragDiffusion to complete high-quality editing
efficiently. Extensive experiments across a wide range of challenging cases
(e.g., multi-objects, diverse object categories, various styles, etc.)
demonstrate the versatility and generality of DragDiffusion.
- Abstract(参考訳): 正確かつ制御可能な画像編集は、大きな注目を集めている課題である。
近年、DragGANはインタラクティブな点ベース画像編集フレームワークを提供し、画素レベルの精度で印象的な編集結果を実現する。
しかし, この手法はGAN(Generative Adversarial Network)に基づくため, 事前学習したGANモデルの容量により, 一般性は上界となる。
本研究では,このようなフレームワークを拡散モデルに拡張し,DragDiffusionを提案する。
大規模事前学習された拡散モデルを利用することにより,実世界シナリオにおける対話型ポイントベース編集の適用性が大幅に向上する。
既存の拡散ベースの画像編集手法はテキスト埋め込みで動作するが、dragdiffusionは拡散潜時を最適化して正確な空間制御を実現する。
拡散モデルは反復的に画像を生成するが、一つのステップで拡散遅延を最適化すればコヒーレントな結果が得られ、DragDiffusionが効率よく高品質な編集を完了できることを実証的に示す。
幅広い挑戦的なケース(マルチオブジェクト、多様なオブジェクトカテゴリ、様々なスタイルなど)にわたる広範な実験は、dragdiffusionの汎用性と汎用性を示している。
関連論文リスト
- GANTASTIC: GAN-based Transfer of Interpretable Directions for Disentangled Image Editing in Text-to-Image Diffusion Models [4.710921988115686]
GANTASTICは、事前学習したGANモデルから既存の方向を抽出し、これらの方向を拡散モデルに転送する新しいフレームワークである。
このアプローチは、拡散モデルが知られている生成的品質と多様性を維持するだけでなく、正確なターゲット画像編集を行う能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-28T17:55:16Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image
Translation [71.7970885247162]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - DiffMorpher: Unleashing the Capability of Diffusion Models for Image
Morphing [28.593023489682654]
DiffMorpherは、拡散モデルを用いて、スムーズで自然な画像のモーフィングを可能にする最初のアプローチである。
私たちのキーとなるアイデアは、2つのLoRAをそれぞれ組み合わせることで2つの画像の意味を捉え、LoRAパラメータと潜時ノイズの両方を補間することで、スムーズなセマンティック・トランジションを確保することです。
また,連続画像間のスムーズさをさらに高めるため,注意・注入手法と新しいサンプリングスケジュールを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:28:08Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative
Image Manifold [75.26840525430092]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。