論文の概要: TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation
- arxiv url: http://arxiv.org/abs/2509.21905v1
- Date: Fri, 26 Sep 2025 05:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.209339
- Title: TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation
- Title(参考訳): TDEdit: テキストドラッグガイドによる画像操作のための統一拡散フレームワーク
- Authors: Qihang Wang, Yaxiong Wang, Lechao Cheng, Zhun Zhong,
- Abstract要約: 共同ドラッグテキスト画像編集のための拡散型統合フレームワークを提案する。
本フレームワークでは,(1)3次元特徴マッピングによる遅延空間レイアウト制御を向上するポイント・クラウド決定性ドラッグ,(2)ドラッグ・テキスト・ガイド・デノナイズ(Drag-Text Guided Denoising),(2)デノナイズ中のドラッグとテキスト条件の影響を動的にバランスするDrag-Text Guided Denoisingを導入している。
- 参考スコア(独自算出の注目度): 51.72432192816058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores image editing under the joint control of text and drag interactions. While recent advances in text-driven and drag-driven editing have achieved remarkable progress, they suffer from complementary limitations: text-driven methods excel in texture manipulation but lack precise spatial control, whereas drag-driven approaches primarily modify shape and structure without fine-grained texture guidance. To address these limitations, we propose a unified diffusion-based framework for joint drag-text image editing, integrating the strengths of both paradigms. Our framework introduces two key innovations: (1) Point-Cloud Deterministic Drag, which enhances latent-space layout control through 3D feature mapping, and (2) Drag-Text Guided Denoising, dynamically balancing the influence of drag and text conditions during denoising. Notably, our model supports flexible editing modes - operating with text-only, drag-only, or combined conditions - while maintaining strong performance in each setting. Extensive quantitative and qualitative experiments demonstrate that our method not only achieves high-fidelity joint editing but also matches or surpasses the performance of specialized text-only or drag-only approaches, establishing a versatile and generalizable solution for controllable image manipulation. Code will be made publicly available to reproduce all results presented in this work.
- Abstract(参考訳): 本稿では,テキストとドラッグの相互作用を共同制御した画像編集について検討する。
近年のテキスト駆動・ドラッグ駆動編集の進歩は目覚ましい進歩を遂げているが、テクスチャ操作に優れながら正確な空間制御を欠いているテキスト駆動の手法は、きめ細かいテクスチャガイダンスを使わずに主に形状や構造を変更する。
これらの制約に対処するため,両パラダイムの長所を統合した共同ドラッグテキスト画像編集のための統合拡散ベースフレームワークを提案する。
本フレームワークでは,(1)3次元特徴マッピングによる遅延空間レイアウト制御を向上するポイント・クラウド決定性ドラッグ,(2)ドラッグ・テキスト・ガイド・デノナイズ(Drag-Text Guided Denoising),(2)デノナイズ中のドラッグとテキスト条件の影響を動的にバランスするDrag-Text Guided Denoisingを導入している。
特に、当社のモデルはフレキシブルな編集モード(テキストのみ、ドラッグオンリー、コンフィグレーション)をサポートします。
広汎な定量的および定性的実験により,本手法は高忠実な共同編集を実現するだけでなく,特殊なテキストのみの手法やドラッグオンリーの手法に適合し,制御可能な画像操作のための汎用的で汎用的なソリューションが確立された。
この作業で提示されたすべての結果を再現するために、コードは公開されます。
関連論文リスト
- DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - CLIPDrag: Combining Text-based and Drag-based Instructions for Image Editing [9.398831289389749]
テキストとドラッグ信号を組み合わせた新しい画像編集手法である textbfCLIPDrag を提案する。
CLIPDragは、既存の単一のドラッグベースのメソッドやテキストベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-10-04T02:46:09Z) - DragText: Rethinking Text Embedding in Point-based Image Editing [3.4248731707266264]
ポイントベースの画像編集は、コンテンツドラッグによる正確で柔軟な制御を可能にする。
編集過程におけるテキスト埋め込みの役割については,まだ十分に研究されていない。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - DE-Net: Dynamic Text-guided Image Editing Adversarial Networks [82.67199573030513]
様々な編集要求に対して動的に空間的・チャネル的に操作する動的編集ブロック(DEBlock)を提案する。
我々のDE-Netは優れた性能を実現し、より効果的かつ正確にソース画像を操作する。
論文 参考訳(メタデータ) (2022-06-02T17:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。