論文の概要: Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation
- arxiv url: http://arxiv.org/abs/2404.01050v1
- Date: Mon, 1 Apr 2024 11:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:47:02.537107
- Title: Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation
- Title(参考訳): ノイズをドラッグする:拡散セマンティック・プロパゲーションによる対話的ポイントベース編集
- Authors: Haofeng Liu, Chenshu Xu, Yifei Yang, Lihua Zeng, Shengfeng He,
- Abstract要約: DragNoiseは、潜在マップを遡ることなく、堅牢で高速な編集を提供する。
U-Netのボトルネック機能は本質的にインタラクティブな編集に理想的な意味豊かな機能を持っている。
DragNoiseは、DragDiffusionと比較して最適化時間を50%以上削減し、優れた制御とセマンティック保持を実現している。
- 参考スコア(独自算出の注目度): 30.737586652869457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point-based interactive editing serves as an essential tool to complement the controllability of existing generative models. A concurrent work, DragDiffusion, updates the diffusion latent map in response to user inputs, causing global latent map alterations. This results in imprecise preservation of the original content and unsuccessful editing due to gradient vanishing. In contrast, we present DragNoise, offering robust and accelerated editing without retracing the latent map. The core rationale of DragNoise lies in utilizing the predicted noise output of each U-Net as a semantic editor. This approach is grounded in two critical observations: firstly, the bottleneck features of U-Net inherently possess semantically rich features ideal for interactive editing; secondly, high-level semantics, established early in the denoising process, show minimal variation in subsequent stages. Leveraging these insights, DragNoise edits diffusion semantics in a single denoising step and efficiently propagates these changes, ensuring stability and efficiency in diffusion editing. Comparative experiments reveal that DragNoise achieves superior control and semantic retention, reducing the optimization time by over 50% compared to DragDiffusion. Our codes are available at https://github.com/haofengl/DragNoise.
- Abstract(参考訳): ポイントベースのインタラクティブ編集は、既存の生成モデルの制御性を補完する重要なツールである。
同時作業であるDragDiffusionは、ユーザ入力に応じて拡散潜時マップを更新し、グローバル潜時マップの変更を引き起こす。
その結果、オリジナルコンテンツの不正確な保存と、勾配の消失による編集が失敗する。
対照的に、我々はDragNoiseを紹介し、潜在マップを遡ることなく、堅牢で高速な編集を提供する。
DragNoiseの中核となる理論的根拠は、各U-Netの予測ノイズ出力をセマンティックエディタとして利用することにある。
第一に、U-Netのボトルネック特徴は本質的にインタラクティブな編集に理想的な意味豊かな特徴を持ち、第二に、認知過程の初期に確立されたハイレベルな意味論は、その後の段階において最小限の変動を示す。
これらの知見を活用して、DragNoiseは拡散セマンティクスを1つの認知ステップで編集し、これらの変化を効率的に伝播させ、拡散編集の安定性と効率を確保する。
比較実験により、DragNoiseはDragDiffusionに比べて50%以上の最適化時間を短縮し、優れた制御とセマンティック保持を実現することが明らかになった。
私たちのコードはhttps://github.com/haofengl/DragNoise.comで公開されています。
関連論文リスト
- GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models [31.708968272342315]
ドラッグ編集の安定性と画質を向上させる新しい手法であるGoodDragを紹介する。
GoodDragは、拡散プロセス内のドラッグとdenoising操作を交換するAlDDフレームワークを導入した。
また,精密な操作やアーチファクトの削減のために,開始点の本来の特徴を維持できる情報保存型動作監視操作を提案する。
論文 参考訳(メタデータ) (2024-04-10T17:59:59Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - FreeDrag: Feature Dragging for Reliable Point-based Image Editing [17.837570645460964]
我々は、ポイントトラッキングの負担を軽減すべく、FreeDragという機能ドラッグ手法を提案する。
FreeDragには、アダプティブ更新によるテンプレート機能と、バックトラックによるライン検索という、2つの重要な設計が含まれている。
提案手法は既存の手法よりも優れており,様々な複雑なシナリオにおいても信頼性の高い点ベースの編集が可能である。
論文 参考訳(メタデータ) (2023-07-10T16:37:46Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - An Edit Friendly DDPM Noise Space: Inversion and Manipulations [22.356884847119616]
そこで本研究では,DDPMの簡易な操作により,幅広い編集操作が可能となる潜在雑音空間を提案する。
この特性により,多様なDDPMサンプリング方式を用いて実画像のテキストベースの編集が可能となることを示す。
また,既存の拡散ベースの編集手法を用いて,その品質と多様性を向上させる方法を示す。
論文 参考訳(メタデータ) (2023-04-12T19:47:13Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。