論文の概要: DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment
- arxiv url: http://arxiv.org/abs/2512.03981v1
- Date: Wed, 03 Dec 2025 17:12:00 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:07:54.530536
- Title: DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment
- Title(参考訳): DirectDrag: 高忠実で、マスクなし、プロンプトなしのドラッグベースの画像編集
- Authors: Sheng-Hao Liao, Shang-Fu Chen, Tai-Ming Huang, Wen-Huang Cheng, Kai-Lung Hua,
- Abstract要約: 生成モデルを用いたドラッグベースの画像編集は、画像構造を直感的に制御する。
既存の方法は、意味的な忠実さと動きの精度を維持するために手動で用意されたマスクとテキストのプロンプトに大きく依存している。
我々は,新しいマスクとプロンプトフリーな編集フレームワークであるDirectDragを提案する。
- 参考スコア(独自算出の注目度): 21.951152436940536
- License:
- Abstract: Drag-based image editing using generative models provides intuitive control over image structures. However, existing methods rely heavily on manually provided masks and textual prompts to preserve semantic fidelity and motion precision. Removing these constraints creates a fundamental trade-off: visual artifacts without masks and poor spatial control without prompts. To address these limitations, we propose DirectDrag, a novel mask- and prompt-free editing framework. DirectDrag enables precise and efficient manipulation with minimal user input while maintaining high image fidelity and accurate point alignment. DirectDrag introduces two key innovations. First, we design an Auto Soft Mask Generation module that intelligently infers editable regions from point displacement, automatically localizing deformation along movement paths while preserving contextual integrity through the generative model's inherent capacity. Second, we develop a Readout-Guided Feature Alignment mechanism that leverages intermediate diffusion activations to maintain structural consistency during point-based edits, substantially improving visual fidelity. Despite operating without manual mask or prompt, DirectDrag achieves superior image quality compared to existing methods while maintaining competitive drag accuracy. Extensive experiments on DragBench and real-world scenarios demonstrate the effectiveness and practicality of DirectDrag for high-quality, interactive image manipulation. Project Page: https://frakw.github.io/DirectDrag/. Code is available at: https://github.com/frakw/DirectDrag.
- Abstract(参考訳): 生成モデルを用いたドラッグベースの画像編集は、画像構造を直感的に制御する。
しかし、既存の手法は意味的忠実さと動きの精度を維持するために手動で用意されたマスクとテキストのプロンプトに大きく依存している。
マスクのない視覚アーチファクトと、プロンプトのない空間制御の貧弱さである。
これらの制約に対処するため,新しいマスクとプロンプトフリーな編集フレームワークであるDirectDragを提案する。
DirectDragは、画像の忠実度と正確な点アライメントを維持しながら、最小限のユーザ入力で正確かつ効率的な操作を可能にする。
DirectDragは2つの重要なイノベーションを紹介している。
まず、自動ソフトマスク生成モジュールを設計し、点変位から編集可能な領域をインテリジェントに推定し、移動経路に沿って変形を自動的に局所化し、生成モデル固有の能力を通してコンテキスト整合性を保つ。
第2に、中間拡散活性化を利用して点ベース編集における構造的一貫性を保ち、視覚的忠実度を大幅に改善する読み出しガイド機能アライメント機構を開発する。
手動マスクやプロンプトなしで動作しているにもかかわらず、DirectDragは競合するドラッグ精度を維持しながら、既存の手法よりも優れた画質を実現している。
DragBenchと実世界のシナリオに関する大規模な実験は、高品質でインタラクティブな画像操作のためのDirectDragの有効性と実用性を示している。
Project Page: https://frakw.github.io/DirectDrag/.com
コードは、https://github.com/frakw/DirectDrag.comで入手できる。
関連論文リスト
- LoVoRA: Text-guided and Mask-free Video Object Removal and Addition with Learnable Object-aware Localization [49.945233586949286]
LoVoRAは、マスクのないビデオオブジェクトの削除と追加のための新しいフレームワークである。
提案手法は,画像間翻訳,光フローベースのマスク伝搬,ビデオペインティングを統合し,時間的に一貫した編集を可能にする。
LoVoRAは、推論中に外部制御信号を必要とせずに、エンドツーエンドのビデオ編集を実現する。
論文 参考訳(メタデータ) (2025-12-02T17:01:07Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation [51.72432192816058]
共同ドラッグテキスト画像編集のための拡散型統合フレームワークを提案する。
本フレームワークでは,(1)3次元特徴マッピングによる遅延空間レイアウト制御を向上するポイント・クラウド決定性ドラッグ,(2)ドラッグ・テキスト・ガイド・デノナイズ(Drag-Text Guided Denoising),(2)デノナイズ中のドラッグとテキスト条件の影響を動的にバランスするDrag-Text Guided Denoisingを導入している。
論文 参考訳(メタデータ) (2025-09-26T05:39:03Z) - LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence [31.686266704795273]
マルチモーダル拡散変換器の最初のドラッグベースの画像編集手法であるLazyDragを紹介する。
LazyDragは暗黙の点マッチングへの依存を直接排除する。
テキストガイダンスと正確な幾何学的制御を統一し、以前は手に入らなかった複雑な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-15T17:59:47Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - InstantDrag: Improving Interactivity in Drag-based Image Editing [23.004027029130953]
ドラッグベースの画像編集は、その対話性と精度で最近人気を集めている。
InstantDragは、対話性と速度を向上する最適化不要なパイプラインである。
InstantDragがマスクやテキストのプロンプトなしで高速でリアルな編集を行う能力を示す。
論文 参考訳(メタデータ) (2024-09-13T14:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。