論文の概要: InstructUDrag: Joint Text Instructions and Object Dragging for Interactive Image Editing
- arxiv url: http://arxiv.org/abs/2510.08181v1
- Date: Thu, 09 Oct 2025 13:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.087059
- Title: InstructUDrag: Joint Text Instructions and Object Dragging for Interactive Image Editing
- Title(参考訳): InstructUDrag:インタラクティブな画像編集のための共同テキストインストラクションとオブジェクトドラッグ
- Authors: Haoran Yu, Yi Shi,
- Abstract要約: InstructUDragは、テキスト命令とオブジェクトドラッグを組み合わせた拡散ベースのフレームワークである。
本フレームワークは,オブジェクトのドラッグングを画像再構成プロセスとして扱い,二つの相乗的分岐に分割する。
InstructUDragはフレキシブルで高忠実な画像編集を容易にし、オブジェクトの移動精度と画像コンテンツに対するセマンティックコントロールを提供する。
- 参考スコア(独自算出の注目度): 6.95116998047811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have shown great potential for image editing, with techniques such as text-based and object-dragging methods emerging as key approaches. However, each of these methods has inherent limitations: text-based methods struggle with precise object positioning, while object dragging methods are confined to static relocation. To address these issues, we propose InstructUDrag, a diffusion-based framework that combines text instructions with object dragging, enabling simultaneous object dragging and text-based image editing. Our framework treats object dragging as an image reconstruction process, divided into two synergistic branches. The moving-reconstruction branch utilizes energy-based gradient guidance to move objects accurately, refining cross-attention maps to enhance relocation precision. The text-driven editing branch shares gradient signals with the reconstruction branch, ensuring consistent transformations and allowing fine-grained control over object attributes. We also employ DDPM inversion and inject prior information into noise maps to preserve the structure of moved objects. Extensive experiments demonstrate that InstructUDrag facilitates flexible, high-fidelity image editing, offering both precision in object relocation and semantic control over image content.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルでは、テキストベースやオブジェクト・ドラッグ法といった手法が重要なアプローチとして登場し、画像編集に大きな可能性を示している。
しかし、これらのメソッドには固有の制限がある: テキストベースのメソッドは正確なオブジェクトの位置決めに苦労するが、オブジェクトのドラッグングメソッドは静的な再配置に限られる。
これらの問題に対処するために、テキスト命令とオブジェクトドラッグを組み合わせた拡散ベースのフレームワークであるInstructUDragを提案し、同時にオブジェクトドラッグとテキストベースの画像編集を可能にする。
本フレームワークは,オブジェクトのドラッグングを画像再構成プロセスとして扱い,二つの相乗的分岐に分割する。
移動再構成部は、エネルギーに基づく勾配誘導を利用して、物体を正確に移動させ、配置精度を高めるために横断地図を精製する。
テキスト駆動編集ブランチは、勾配信号を再構成ブランチと共有し、一貫した変換を確保し、オブジェクト属性のきめ細かい制御を可能にする。
また,移動物体の構造を保存するため,DDPMインバージョンを用いて先行情報をノイズマップに注入する。
大規模な実験により、InstructUDragは柔軟で高忠実な画像編集を容易にし、オブジェクトの移動精度と画像コンテンツに対するセマンティックコントロールを提供する。
関連論文リスト
- TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation [51.72432192816058]
共同ドラッグテキスト画像編集のための拡散型統合フレームワークを提案する。
本フレームワークでは,(1)3次元特徴マッピングによる遅延空間レイアウト制御を向上するポイント・クラウド決定性ドラッグ,(2)ドラッグ・テキスト・ガイド・デノナイズ(Drag-Text Guided Denoising),(2)デノナイズ中のドラッグとテキスト条件の影響を動的にバランスするDrag-Text Guided Denoisingを導入している。
論文 参考訳(メタデータ) (2025-09-26T05:39:03Z) - Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing [20.01946775715704]
インバージョンと編集という2つの分岐しか持たないチューニング不要な手法を提案する。
このアプローチにより、ユーザはオブジェクトのアクションを同時に編集し、編集されたオブジェクトの生成位置を制御することができる。
印象的な画像編集結果と定量的評価により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-25T08:00:49Z) - DragText: Rethinking Text Embedding in Point-based Image Editing [3.4248731707266264]
ポイントベースの画像編集は、コンテンツドラッグによる正確で柔軟な制御を可能にする。
編集過程におけるテキスト埋め込みの役割については,まだ十分に研究されていない。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。