論文の概要: GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.07206v1
- Date: Wed, 10 Apr 2024 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 14:01:43.054764
- Title: GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models
- Title(参考訳): GoodDrag: 拡散モデルによるドラッグ編集のベストプラクティス
- Authors: Zewei Zhang, Huan Liu, Jun Chen, Xiangyu Xu,
- Abstract要約: ドラッグ編集の安定性と画質を向上させる新しい手法であるGoodDragを紹介する。
GoodDragは、拡散プロセス内のドラッグとdenoising操作を交換するAlDDフレームワークを導入した。
また,精密な操作やアーチファクトの削減のために,開始点の本来の特徴を維持できる情報保存型動作監視操作を提案する。
- 参考スコア(独自算出の注目度): 31.708968272342315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce GoodDrag, a novel approach to improve the stability and image quality of drag editing. Unlike existing methods that struggle with accumulated perturbations and often result in distortions, GoodDrag introduces an AlDD framework that alternates between drag and denoising operations within the diffusion process, effectively improving the fidelity of the result. We also propose an information-preserving motion supervision operation that maintains the original features of the starting point for precise manipulation and artifact reduction. In addition, we contribute to the benchmarking of drag editing by introducing a new dataset, Drag100, and developing dedicated quality assessment metrics, Dragging Accuracy Index and Gemini Score, utilizing Large Multimodal Models. Extensive experiments demonstrate that the proposed GoodDrag compares favorably against the state-of-the-art approaches both qualitatively and quantitatively. The project page is https://gooddrag.github.io.
- Abstract(参考訳): 本稿では,ドラッグ編集の安定性と画質を向上させる新しい手法であるGoodDragを紹介する。
蓄積された摂動に苦労し、しばしば歪みをもたらす既存の方法とは異なり、GoodDragは拡散プロセス内でのドラッグとdenoising操作を交互に行うAlDDフレームワークを導入し、その結果の忠実さを効果的に改善する。
また,精密な操作やアーチファクトの削減のために,開始点の本来の特徴を維持できる情報保存型動作監視操作を提案する。
さらに,新たなデータセットであるDrag100の導入によるドラッグ編集のベンチマークや,Dragging Accuracy IndexやGemini Scoreなど,大規模マルチモーダルモデルを活用した専用品質評価指標の開発にも貢献する。
大規模な実験により、提案されたGoodDragは、定性的かつ定量的に最先端のアプローチと好意的に比較できることが示された。
プロジェクトページはhttps://gooddrag.github.io.com。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos [101.59710862476041]
1秒で高速なドラッグベースの画像編集を可能にするLightningDragを提案する。
従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義する。
提案手法は, 精度と整合性の観点から, 従来手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-22T15:14:00Z) - StableDrag: Stable Dragging for Point-based Image Editing [24.924112878074336]
点ベース画像編集はDragGANの出現以来注目されている。
近年、DragDiffusionは、このドラッグング技術を拡散モデルに適用することで、生成品質をさらに推し進めている。
我々は,安定かつ高精度なドラッグベース編集フレームワークであるStableDragを構築し,識別点追跡法と信頼度に基づく動作監視のための潜時拡張戦略を設計した。
論文 参考訳(メタデータ) (2024-03-07T12:11:02Z) - FreeDrag: Feature Dragging for Reliable Point-based Image Editing [16.833998026980087]
我々は、ポイントトラッキングの負担を軽減すべく、FreeDragという機能ドラッグ手法を提案する。
FreeDragには、アダプティブ更新によるテンプレート機能と、バックトラックによるライン検索という、2つの重要な設計が含まれている。
提案手法は既存の手法よりも優れており,様々な複雑なシナリオにおいても信頼性の高い点ベースの編集が可能である。
論文 参考訳(メタデータ) (2023-07-10T16:37:46Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。