論文の概要: LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
- arxiv url: http://arxiv.org/abs/2509.12203v1
- Date: Mon, 15 Sep 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.448283
- Title: LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
- Title(参考訳): LazyDrag: 明示的対応による多モード拡散変換器の安定なドラッグベース編集の実現
- Authors: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum,
- Abstract要約: マルチモーダル拡散変換器の最初のドラッグベースの画像編集手法であるLazyDragを紹介する。
LazyDragは暗黙の点マッチングへの依存を直接排除する。
テキストガイダンスと正確な幾何学的制御を統一し、以前は手に入らなかった複雑な編集を可能にする。
- 参考スコア(独自算出の注目度): 31.686266704795273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reliance on implicit point matching via attention has become a core bottleneck in drag-based editing, resulting in a fundamental compromise on weakened inversion strength and costly test-time optimization (TTO). This compromise severely limits the generative capabilities of diffusion models, suppressing high-fidelity inpainting and text-guided creation. In this paper, we introduce LazyDrag, the first drag-based image editing method for Multi-Modal Diffusion Transformers, which directly eliminates the reliance on implicit point matching. In concrete terms, our method generates an explicit correspondence map from user drag inputs as a reliable reference to boost the attention control. This reliable reference opens the potential for a stable full-strength inversion process, which is the first in the drag-based editing task. It obviates the necessity for TTO and unlocks the generative capability of models. Therefore, LazyDrag naturally unifies precise geometric control with text guidance, enabling complex edits that were previously out of reach: opening the mouth of a dog and inpainting its interior, generating new objects like a ``tennis ball'', or for ambiguous drags, making context-aware changes like moving a hand into a pocket. Additionally, LazyDrag supports multi-round workflows with simultaneous move and scale operations. Evaluated on the DragBench, our method outperforms baselines in drag accuracy and perceptual quality, as validated by VIEScore and human evaluation. LazyDrag not only establishes new state-of-the-art performance, but also paves a new way to editing paradigms.
- Abstract(参考訳): 注意による暗黙の点マッチングへの依存は、ドラッグベースの編集において中心的なボトルネックとなり、弱められた反転強度とコストの高いテスト時間最適化(TTO)に根本的な妥協をもたらす。
この妥協により拡散モデルの生成能力が著しく制限され、高忠実度塗装とテキスト誘導生成が抑制される。
本稿では,マルチモーダル拡散変換器の最初のドラッグベースの画像編集手法であるLazyDragを紹介し,暗黙の点マッチングへの依存を直接排除する。
具体的には,ユーザのドラッグ入力から明示的な対応マップを生成することで,注意制御の強化を図る。
この信頼性の高い参照は、ドラッグベースの編集タスクで最初の、安定な全強度反転プロセスの可能性を開放する。
TTOの必要性を排除し、モデルの生成能力を解放する。
そのため、LazyDragは自然にテキストガイダンスで正確な幾何学的制御を統一し、犬を口を開けたり、内部を塗ったり、「テニスボール」のような新しいオブジェクトを生成したり、不明瞭なドラッグを発生させたり、手のポケットに手を動かしたりといったコンテキストに合った変更を加えるといった、これまで手元に届かなかった複雑な編集を可能にする。
さらに、LazyDragは、同時移動とスケール操作を備えたマルチラウンドワークフローをサポートする。
提案手法はDragBenchで評価され,VIEScoreと人間による評価により,ドラッグ精度と知覚品質のベースラインよりも優れていた。
LazyDragは新しい最先端のパフォーマンスを確立するだけでなく、パラダイムを編集する新しい方法も舗装している。
関連論文リスト
- FlowDrag: 3D-aware Drag-based Image Editing with Mesh-guided Deformation Vector Flow Fields [20.793887576117527]
幾何情報を利用してより正確でコヒーレントな変換を行うFlowDragを提案する。
提案手法は,ユーザ定義のドラッグポイントに基づくメッシュ変形を誘導するエネルギー関数を用いて,画像から3次元メッシュを構築する。
得られたメッシュの変位は2Dに投影され、UNetデノナイジングプロセスに組み込まれ、正確なハンド・ツー・ターゲットのポイントアライメントを可能にする。
論文 参考訳(メタデータ) (2025-07-11T03:18:52Z) - DragNeXt: Rethinking Drag-Based Image Editing [81.9430401732008]
ドラッグベースの画像編集(DBIE)により、ユーザは直接オブジェクトをドラッグすることで画像を操作できる。
Emphtextcolormagentaii)ポイントベースのドラッグは、しばしば非常にあいまいで、ユーザの意図に合わせるのが難しい。
我々は,textcolorSkyBluetextbfDragNeXt という,シンプルなyet効率の編集フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T10:24:29Z) - Localize, Understand, Collaborate: Semantic-Aware Dragging via Intention Reasoner [8.310002338000954]
現在の手法では、この問題をポイントドラッグを通じて"ドラッグする方法"を自動学習するものとしてモデル化するのが一般的である。
我々はLucidDragを提案する。これは"ドラッグする方法"から"どうあるべきか"パラダイムに焦点を移すものだ。
論文 参考訳(メタデータ) (2024-06-01T13:10:43Z) - LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos [101.59710862476041]
1秒で高速なドラッグベースの画像編集を可能にするLightningDragを提案する。
従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義する。
提案手法は, 精度と整合性の観点から, 従来手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-22T15:14:00Z) - GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models [31.708968272342315]
ドラッグ編集の安定性と画質を向上させる新しい手法であるGoodDragを紹介する。
GoodDragは、拡散プロセス内のドラッグとdenoising操作を交換するAlDDフレームワークを導入した。
また,精密な操作やアーチファクトの削減のために,開始点の本来の特徴を維持できる情報保存型動作監視操作を提案する。
論文 参考訳(メタデータ) (2024-04-10T17:59:59Z) - StableDrag: Stable Dragging for Point-based Image Editing [24.924112878074336]
点ベース画像編集はDragGANの出現以来注目されている。
近年、DragDiffusionは、このドラッグング技術を拡散モデルに適用することで、生成品質をさらに推し進めている。
我々は,安定かつ高精度なドラッグベース編集フレームワークであるStableDragを構築し,識別点追跡法と信頼度に基づく動作監視のための潜時拡張戦略を設計した。
論文 参考訳(メタデータ) (2024-03-07T12:11:02Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。