論文の概要: ContextDrag: Precise Drag-Based Image Editing via Context-Preserving Token Injection and Position-Consistent Attention
- arxiv url: http://arxiv.org/abs/2512.08477v1
- Date: Tue, 09 Dec 2025 10:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.927205
- Title: ContextDrag: Precise Drag-Based Image Editing via Context-Preserving Token Injection and Position-Consistent Attention
- Title(参考訳): ContextDrag: コンテキスト保存トケインジェクションと位置一貫性アテンションによる高精度ドラッグベース画像編集
- Authors: Huiguo He, Pengyu Yan, Ziqi Yi, Weizhi Zhong, Zheng Liu, Yejun Tang, Huan Yang, Kun Gai, Guanbin Li, Lianwen Jin,
- Abstract要約: ドラッグベースの編集のための新しいパラダイムであるContextDragを紹介します。
参照イメージからVAEエンコードされた機能を組み込むことで、ContextDragはリッチなコンテキストキューを活用し、きめ細かい詳細を保存することができる。
- 参考スコア(独自算出の注目度): 81.12932992203885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drag-based image editing aims to modify visual content followed by user-specified drag operations. Despite existing methods having made notable progress, they still fail to fully exploit the contextual information in the reference image, including fine-grained texture details, leading to edits with limited coherence and fidelity. To address this challenge, we introduce ContextDrag, a new paradigm for drag-based editing that leverages the strong contextual modeling capability of editing models, such as FLUX-Kontext. By incorporating VAE-encoded features from the reference image, ContextDrag can leverage rich contextual cues and preserve fine-grained details, without the need for finetuning or inversion. Specifically, ContextDrag introduced a novel Context-preserving Token Injection (CTI) that injects noise-free reference features into their correct destination locations via a Latent-space Reverse Mapping (LRM) algorithm. This strategy enables precise drag control while preserving consistency in both semantics and texture details. Second, ContextDrag adopts a novel Position-Consistent Attention (PCA), which positional re-encodes the reference tokens and applies overlap-aware masking to eliminate interference from irrelevant reference features. Extensive experiments on DragBench-SR and DragBench-DR demonstrate that our approach surpasses all existing SOTA methods. Code will be publicly available.
- Abstract(参考訳): ドラッグベースの画像編集は、ユーザが指定したドラッグ操作に従って視覚内容を変更することを目的としている。
既存の手法が顕著な進歩を遂げたものの、細かなテクスチャの詳細を含む参照画像の文脈情報を十分に活用することができず、コヒーレンスと忠実さが制限された編集に繋がった。
この課題に対処するために、FLUX-Kontextのような編集モデルの強いコンテキストモデリング機能を活用する、ドラッグベースの編集のための新しいパラダイムであるContextDragを紹介します。
参照イメージからVAEエンコードされた機能を組み込むことで、ContextDragは、微調整や逆変換を必要とせずに、リッチなコンテキストキューを活用でき、きめ細かい詳細を保存できる。
具体的には、ContextDragは、Latent-space Reverse Mapping (LRM)アルゴリズムを用いて、ノイズフリー参照機能を適切な目的地に注入する、新しいContext-serving Token Injection (CTI)を導入した。
この戦略は、セマンティクスとテクスチャの詳細の両方で一貫性を維持しながら、正確なドラッグコントロールを可能にする。
第2に、ContextDragは、参照トークンを再エンコードし、重複認識マスキングを適用して、無関係な参照特徴からの干渉を排除する、新しい位置一貫性注意(PCA)を採用している。
DragBench-SRとDragBench-DRの大規模な実験により、我々の手法が既存のSOTA法を超越していることが証明された。
コードは公開されます。
関連論文リスト
- DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment [21.951152436940536]
生成モデルを用いたドラッグベースの画像編集は、画像構造を直感的に制御する。
既存の方法は、意味的な忠実さと動きの精度を維持するために手動で用意されたマスクとテキストのプロンプトに大きく依存している。
我々は,新しいマスクとプロンプトフリーな編集フレームワークであるDirectDragを提案する。
論文 参考訳(メタデータ) (2025-12-03T17:12:00Z) - InstructUDrag: Joint Text Instructions and Object Dragging for Interactive Image Editing [6.95116998047811]
InstructUDragは、テキスト命令とオブジェクトドラッグを組み合わせた拡散ベースのフレームワークである。
本フレームワークは,オブジェクトのドラッグングを画像再構成プロセスとして扱い,二つの相乗的分岐に分割する。
InstructUDragはフレキシブルで高忠実な画像編集を容易にし、オブジェクトの移動精度と画像コンテンツに対するセマンティックコントロールを提供する。
論文 参考訳(メタデータ) (2025-10-09T13:06:49Z) - Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime! [88.12304235156591]
textbfstReaming drag-oriEnted interactiVe vidEo manipulation (REVEL)を提案する。
提案手法は,既存の自己回帰ビデオ拡散モデルにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-10-03T22:38:35Z) - DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing [19.031261008813644]
この研究は、DragFlowと呼ばれるドラッグベースの編集にFLUXのリッチさを効果的に活用する最初のフレームワークを提案する。
この制限を克服するため、DragFlowでは、アフィン変換がよりリッチで一貫性のある機能管理を可能にする、リージョンベースの編集パラダイムを導入している。
DragBench-DRとReD Benchの実験は、DragFlowがポイントベースとリージョンベースの両方のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-10-02T17:39:13Z) - TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation [51.72432192816058]
共同ドラッグテキスト画像編集のための拡散型統合フレームワークを提案する。
本フレームワークでは,(1)3次元特徴マッピングによる遅延空間レイアウト制御を向上するポイント・クラウド決定性ドラッグ,(2)ドラッグ・テキスト・ガイド・デノナイズ(Drag-Text Guided Denoising),(2)デノナイズ中のドラッグとテキスト条件の影響を動的にバランスするDrag-Text Guided Denoisingを導入している。
論文 参考訳(メタデータ) (2025-09-26T05:39:03Z) - LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence [31.686266704795273]
マルチモーダル拡散変換器の最初のドラッグベースの画像編集手法であるLazyDragを紹介する。
LazyDragは暗黙の点マッチングへの依存を直接排除する。
テキストガイダンスと正確な幾何学的制御を統一し、以前は手に入らなかった複雑な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-15T17:59:47Z) - DragNeXt: Rethinking Drag-Based Image Editing [81.9430401732008]
ドラッグベースの画像編集(DBIE)により、ユーザは直接オブジェクトをドラッグすることで画像を操作できる。
Emphtextcolormagentaii)ポイントベースのドラッグは、しばしば非常にあいまいで、ユーザの意図に合わせるのが難しい。
我々は,textcolorSkyBluetextbfDragNeXt という,シンプルなyet効率の編集フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T10:24:29Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。