論文の概要: DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
- arxiv url: http://arxiv.org/abs/2510.02253v1
- Date: Thu, 02 Oct 2025 17:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.259566
- Title: DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
- Title(参考訳): DragFlow: Drag編集のためのリージョンベースのスーパービジョンを備えたDiTプリミティブの公開
- Authors: Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong,
- Abstract要約: この研究は、DragFlowと呼ばれるドラッグベースの編集にFLUXのリッチさを効果的に活用する最初のフレームワークを提案する。
この制限を克服するため、DragFlowでは、アフィン変換がよりリッチで一貫性のある機能管理を可能にする、リージョンベースの編集パラダイムを導入している。
DragBench-DRとReD Benchの実験は、DragFlowがポイントベースとリージョンベースの両方のベースラインを超えたことを示している。
- 参考スコア(独自算出の注目度): 19.031261008813644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drag-based image editing has long suffered from distortions in the target region, largely because the priors of earlier base models, Stable Diffusion, are insufficient to project optimized latents back onto the natural image manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow matching (e.g., SD3.5, FLUX), generative priors have become significantly stronger, enabling advances across diverse editing tasks. However, drag-based editing has yet to benefit from these stronger priors. This work proposes the first framework to effectively harness FLUX's rich prior for drag-based editing, dubbed DragFlow, achieving substantial gains over baselines. We first show that directly applying point-based drag editing to DiTs performs poorly: unlike the highly compressed features of UNets, DiT features are insufficiently structured to provide reliable guidance for point-wise motion supervision. To overcome this limitation, DragFlow introduces a region-based editing paradigm, where affine transformations enable richer and more consistent feature supervision. Additionally, we integrate pretrained open-domain personalization adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving background fidelity through gradient mask-based hard constraints. Multimodal large language models (MLLMs) are further employed to resolve task ambiguities. For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench) featuring region-level dragging instructions. Extensive experiments on DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and region-based baselines, setting a new state-of-the-art in drag-based image editing. Code and datasets will be publicly available upon publication.
- Abstract(参考訳): ドラッグベースの画像編集は、主に初期のベースモデルである安定拡散(Stable Diffusion)が、自然な画像多様体に最適化された潜像を投影するには不十分であるため、ターゲット領域の歪みに長い間悩まされてきた。
UNetベースのDDPMからフローマッチング(SD3.5、FLUXなど)による拡張性のあるDiTへの移行により、生成的事前は大幅に強化され、多様な編集タスクにまたがる進歩が実現された。
しかし、ドラッグベースの編集は、これらのより強力な事前処理の恩恵を受けていない。
この研究は、DragFlowと呼ばれるドラッグベースの編集にFLUXのリッチさを効果的に活用する最初のフレームワークを提案し、ベースラインよりも大幅に向上した。
高度に圧縮されたUNETとは異なり、DTT機能は、ポイントワイズ動作監視のための信頼性の高いガイダンスを提供するために不十分な構造になっている。
この制限を克服するため、DragFlowでは、アフィン変換がよりリッチで一貫性のある機能管理を可能にする、リージョンベースの編集パラダイムを導入している。
さらに、トレーニング済みのオープンドメインパーソナライズアダプタ(IP-Adapterなど)を統合して、グラデーションマスクベースのハード制約によるバックグラウンドの忠実さを保ちながら、主観的整合性を高める。
タスクのあいまいさを解決するために、MLLM(Multimodal large language model)がさらに用いられる。
評価のために,領域レベルのドラッギング命令を特徴とする新しい領域ベースのドラッギングベンチマーク(ReD Bench)をキュレートする。
DragBench-DRとReD Benchの大規模な実験によると、DragFlowはポイントベースとリージョンベースの両方のベースラインを超えており、ドラッグベースイメージ編集における新たな最先端技術を確立している。
コードとデータセットは公開時に公開される。
関連論文リスト
- TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation [51.72432192816058]
共同ドラッグテキスト画像編集のための拡散型統合フレームワークを提案する。
本フレームワークでは,(1)3次元特徴マッピングによる遅延空間レイアウト制御を向上するポイント・クラウド決定性ドラッグ,(2)ドラッグ・テキスト・ガイド・デノナイズ(Drag-Text Guided Denoising),(2)デノナイズ中のドラッグとテキスト条件の影響を動的にバランスするDrag-Text Guided Denoisingを導入している。
論文 参考訳(メタデータ) (2025-09-26T05:39:03Z) - LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence [31.686266704795273]
マルチモーダル拡散変換器の最初のドラッグベースの画像編集手法であるLazyDragを紹介する。
LazyDragは暗黙の点マッチングへの依存を直接排除する。
テキストガイダンスと正確な幾何学的制御を統一し、以前は手に入らなかった複雑な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-15T17:59:47Z) - FlowDrag: 3D-aware Drag-based Image Editing with Mesh-guided Deformation Vector Flow Fields [20.793887576117527]
幾何情報を利用してより正確でコヒーレントな変換を行うFlowDragを提案する。
提案手法は,ユーザ定義のドラッグポイントに基づくメッシュ変形を誘導するエネルギー関数を用いて,画像から3次元メッシュを構築する。
得られたメッシュの変位は2Dに投影され、UNetデノナイジングプロセスに組み込まれ、正確なハンド・ツー・ターゲットのポイントアライメントを可能にする。
論文 参考訳(メタデータ) (2025-07-11T03:18:52Z) - DragNeXt: Rethinking Drag-Based Image Editing [81.9430401732008]
ドラッグベースの画像編集(DBIE)により、ユーザは直接オブジェクトをドラッグすることで画像を操作できる。
Emphtextcolormagentaii)ポイントベースのドラッグは、しばしば非常にあいまいで、ユーザの意図に合わせるのが難しい。
我々は,textcolorSkyBluetextbfDragNeXt という,シンプルなyet効率の編集フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T10:24:29Z) - DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model [14.144755955903634]
DragLoRAは、ドラッグベースの編集パイプラインにLoRAアダプタを統合する新しいフレームワークである。
DragLoRAはドラッグベース画像編集における制御精度と計算効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-05-18T13:52:19Z) - LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos [101.59710862476041]
1秒で高速なドラッグベースの画像編集を可能にするLightningDragを提案する。
従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義する。
提案手法は, 精度と整合性の観点から, 従来手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-22T15:14:00Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。