論文の概要: CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
- arxiv url: http://arxiv.org/abs/2508.06937v1
- Date: Sat, 09 Aug 2025 11:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.618383
- Title: CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
- Title(参考訳): CannyEdit: 学習不要の画像編集のための選択型キャニーコントロールとデュアルプロンプトガイダンス
- Authors: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang,
- Abstract要約: CannyEditは、地域画像編集のための新しいトレーニング不要のフレームワークである。
Selective Canny Control and Dual-Prompt Guidanceを紹介する。
CannyEditは2.93から10.49パーセントの改善を達成している。
- 参考スコア(独自算出の注目度): 13.934827997942424
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny ControlNet in user-specified editable regions while strictly preserving details of the source images in unedited areas via inversion-phase ControlNet information retention. This enables precise, text-driven edits without compromising contextual integrity. (2) Dual-Prompt Guidance, which combines local prompts for object-specific edits with a global target prompt to maintain coherent scene interactions. On real-world image editing tasks (addition, replacement, removal), CannyEdit outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent improvement in the balance of text adherence and context fidelity. In terms of editing seamlessness, user studies reveal only 49.2 percent of general users and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited when paired with real images without edits, versus 76.08 to 89.09 percent for competitor methods.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの最近の進歩は,基礎モデルの創成的先行を生かして,訓練不要な地域画像編集を可能にしている。
しかし、既存の手法では、編集領域におけるテキストの付着性のバランス、未編集領域におけるコンテキストの忠実さ、編集のシームレスな統合に苦慮している。
Inversion-phase ControlNet情報保持を通じて、未編集領域のソースイメージの詳細を厳密に保存しつつ、ユーザ指定の編集可能領域におけるCanny ControlNetの構造的ガイダンスを隠蔽するSelective Canny Control。
これにより、コンテキスト整合性を損なうことなく、正確でテキスト駆動の編集が可能になる。
2) オブジェクト固有の編集のための局所的なプロンプトとグローバルなターゲットプロンプトを組み合わせて、一貫性のあるシーンインタラクションを維持するデュアルプロンプトガイダンス。
実世界の画像編集タスク(追加、置換、削除)において、CannyEditはKV-Editのような従来の手法よりも優れており、テキストの定着とコンテキストの忠実さのバランスが2.93から10.49パーセント向上している。
シームレスな編集に関しては、一般ユーザーの49.2%とAIGCの専門家の42.0パーセントのみが、CannyEditの結果を編集なしで実際の画像と組み合わせた場合のAI編集であると認識している。
関連論文リスト
- An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。