論文の概要: DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing
- arxiv url: http://arxiv.org/abs/2306.14435v2
- Date: Tue, 27 Jun 2023 11:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 10:07:43.137036
- Title: DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing
- Title(参考訳): DragDiffusion:インタラクティブなポイントベース画像編集のための拡散モデル
- Authors: Yujun Shi, Chuhui Xue, Jiachun Pan, Wenqing Zhang, Vincent Y. F. Tan,
Song Bai
- Abstract要約: DragGANは、インタラクティブなポイントベースの画像編集フレームワークを提供し、ピクセルレベルの精度で印象的な編集結果を実現する。
本研究では,このような編集フレームワークを拡散モデルに拡張し,DragDiffusionを提案する。
大規模な事前学習拡散モデルを利用することで、実世界のシナリオにおける対話的ポイントベース編集の適用性を大幅に向上する。
- 参考スコア(独自算出の注目度): 91.12305858787684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise and controllable image editing is a challenging task that has
attracted significant attention. Recently, DragGAN enables an interactive
point-based image editing framework and achieves impressive editing results
with pixel-level precision. However, since this method is based on generative
adversarial networks (GAN), its generality is upper-bounded by the capacity of
the pre-trained GAN models. In this work, we extend such an editing framework
to diffusion models and propose DragDiffusion. By leveraging large-scale
pretrained diffusion models, we greatly improve the applicability of
interactive point-based editing in real world scenarios. While most existing
diffusion-based image editing methods work on text embeddings, DragDiffusion
optimizes the diffusion latent to achieve precise spatial control. Although
diffusion models generate images in an iterative manner, we empirically show
that optimizing diffusion latent at one single step suffices to generate
coherent results, enabling DragDiffusion to complete high-quality editing
efficiently. Extensive experiments across a wide range of challenging cases
(e.g., multi-objects, diverse object categories, various styles, etc.)
demonstrate the versatility and generality of DragDiffusion.
- Abstract(参考訳): 正確かつ制御可能な画像編集は、大きな注目を集めている課題である。
近年、DragGANはインタラクティブな点ベース画像編集フレームワークを提供し、画素レベルの精度で印象的な編集結果を実現する。
しかし, この手法はGAN(Generative Adversarial Network)に基づくため, 事前学習したGANモデルの容量により, 一般性は上界となる。
本研究では,このようなフレームワークを拡散モデルに拡張し,DragDiffusionを提案する。
大規模事前学習された拡散モデルを利用することにより,実世界シナリオにおける対話型ポイントベース編集の適用性が大幅に向上する。
既存の拡散ベースの画像編集手法はテキスト埋め込みで動作するが、dragdiffusionは拡散潜時を最適化して正確な空間制御を実現する。
拡散モデルは反復的に画像を生成するが、一つのステップで拡散遅延を最適化すればコヒーレントな結果が得られ、DragDiffusionが効率よく高品質な編集を完了できることを実証的に示す。
幅広い挑戦的なケース(マルチオブジェクト、多様なオブジェクトカテゴリ、様々なスタイルなど)にわたる広範な実験は、dragdiffusionの汎用性と汎用性を示している。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - DiffMorpher: Unleashing the Capability of Diffusion Models for Image
Morphing [28.593023489682654]
DiffMorpherは、拡散モデルを用いて、スムーズで自然な画像のモーフィングを可能にする最初のアプローチである。
私たちのキーとなるアイデアは、2つのLoRAをそれぞれ組み合わせることで2つの画像の意味を捉え、LoRAパラメータと潜時ノイズの両方を補間することで、スムーズなセマンティック・トランジションを確保することです。
また,連続画像間のスムーズさをさらに高めるため,注意・注入手法と新しいサンプリングスケジュールを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:28:08Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。