論文の概要: AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing
- arxiv url: http://arxiv.org/abs/2410.12696v1
- Date: Wed, 16 Oct 2024 15:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:05.826445
- Title: AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing
- Title(参考訳): AdaptiveDrag: 拡散に基づく画像編集における意味駆動ドラッグ
- Authors: DuoSheng Chen, Binghui Chen, Yifeng Geng, Liefeng Bo,
- Abstract要約: マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
- 参考スコア(独自算出の注目度): 14.543341303789445
- License:
- Abstract: Recently, several point-based image editing methods (e.g., DragDiffusion, FreeDrag, DragNoise) have emerged, yielding precise and high-quality results based on user instructions. However, these methods often make insufficient use of semantic information, leading to less desirable results. In this paper, we proposed a novel mask-free point-based image editing method, AdaptiveDrag, which provides a more flexible editing approach and generates images that better align with user intent. Specifically, we design an auto mask generation module using super-pixel division for user-friendliness. Next, we leverage a pre-trained diffusion model to optimize the latent, enabling the dragging of features from handle points to target points. To ensure a comprehensive connection between the input image and the drag process, we have developed a semantic-driven optimization. We design adaptive steps that are supervised by the positions of the points and the semantic regions derived from super-pixel segmentation. This refined optimization process also leads to more realistic and accurate drag results. Furthermore, to address the limitations in the generative consistency of the diffusion model, we introduce an innovative corresponding loss during the sampling process. Building on these effective designs, our method delivers superior generation results using only the single input image and the handle-target point pairs. Extensive experiments have been conducted and demonstrate that the proposed method outperforms others in handling various drag instructions (e.g., resize, movement, extension) across different domains (e.g., animals, human face, land space, clothing).
- Abstract(参考訳): 近年,いくつかの点ベースの画像編集手法(DragDiffusion,FreeDrag,DragNoiseなど)が登場し,ユーザの指示に基づいて高精度で高品質な結果が得られた。
しかし、これらの手法は意味情報を不十分に利用し、望ましくない結果をもたらすことが多い。
本稿では,よりフレキシブルな編集手法を提供し,ユーザ意図に整合した画像を生成する新しいマスクフリーなポイントベース画像編集手法であるAdaptiveDragを提案する。
具体的には,ユーザフレンドリーのためにスーパーピクセル分割を用いた自動マスク生成モジュールを設計する。
次に,事前学習した拡散モデルを用いて遅延を最適化し,ハンドルポイントからターゲットポイントへの特徴のドラッグを可能にする。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
超画素セグメンテーションから導かれる点と意味領域の位置によって制御される適応的なステップを設計する。
この洗練された最適化プロセスは、より現実的で正確なドラッグ結果をもたらす。
さらに,拡散モデルの生成的一貫性の限界に対処するため,サンプリング過程において,革新的に対応する損失を導入する。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
提案手法は, 様々な領域(例えば, 動物, 人間の顔, 陸地, 衣服など)にまたがる様々なドラッグ命令(例えば, リサイズ, 移動, 拡張)の処理において, 他者より優れていることを示した。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive Manner [28.939227214483953]
本稿では,レグレッションに基づくネットワークを用いて,画像のドラッグング過程におけるStyleGAN潜伏符号の変動パターンを学習する。
提案手法は,画素レベルの粒度でのSOTA推論速度と画像編集性能を実現する。
論文 参考訳(メタデータ) (2024-07-26T10:45:57Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - FastDrag: Manipulate Anything in One Step [20.494157877241665]
本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。
この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。
私たちのFastDragはDragBenchデータセットで検証されています。
論文 参考訳(メタデータ) (2024-05-24T17:59:26Z) - Motion Guidance: Diffusion-Based Image Editing with Differentiable
Motion Estimators [19.853978560075305]
モーションガイダンス(Motion Guide)は、画像の各ピクセルがどこに移動すべきかを示す、密度の高い複雑なモーションフィールドを指定できる技術である。
本手法は複雑な動きに作用し、実画像や生成された画像の高品質な編集を可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:59:59Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。