論文の概要: CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
- arxiv url: http://arxiv.org/abs/2508.06937v1
- Date: Sat, 09 Aug 2025 11:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.618383
- Title: CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
- Title(参考訳): CannyEdit: 学習不要の画像編集のための選択型キャニーコントロールとデュアルプロンプトガイダンス
- Authors: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang,
- Abstract要約: CannyEditは、地域画像編集のための新しいトレーニング不要のフレームワークである。
Selective Canny Control and Dual-Prompt Guidanceを紹介する。
CannyEditは2.93から10.49パーセントの改善を達成している。
- 参考スコア(独自算出の注目度): 13.934827997942424
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny ControlNet in user-specified editable regions while strictly preserving details of the source images in unedited areas via inversion-phase ControlNet information retention. This enables precise, text-driven edits without compromising contextual integrity. (2) Dual-Prompt Guidance, which combines local prompts for object-specific edits with a global target prompt to maintain coherent scene interactions. On real-world image editing tasks (addition, replacement, removal), CannyEdit outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent improvement in the balance of text adherence and context fidelity. In terms of editing seamlessness, user studies reveal only 49.2 percent of general users and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited when paired with real images without edits, versus 76.08 to 89.09 percent for competitor methods.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの最近の進歩は,基礎モデルの創成的先行を生かして,訓練不要な地域画像編集を可能にしている。
しかし、既存の手法では、編集領域におけるテキストの付着性のバランス、未編集領域におけるコンテキストの忠実さ、編集のシームレスな統合に苦慮している。
Inversion-phase ControlNet情報保持を通じて、未編集領域のソースイメージの詳細を厳密に保存しつつ、ユーザ指定の編集可能領域におけるCanny ControlNetの構造的ガイダンスを隠蔽するSelective Canny Control。
これにより、コンテキスト整合性を損なうことなく、正確でテキスト駆動の編集が可能になる。
2) オブジェクト固有の編集のための局所的なプロンプトとグローバルなターゲットプロンプトを組み合わせて、一貫性のあるシーンインタラクションを維持するデュアルプロンプトガイダンス。
実世界の画像編集タスク(追加、置換、削除)において、CannyEditはKV-Editのような従来の手法よりも優れており、テキストの定着とコンテキストの忠実さのバランスが2.93から10.49パーセント向上している。
シームレスな編集に関しては、一般ユーザーの49.2%とAIGCの専門家の42.0パーセントのみが、CannyEditの結果を編集なしで実際の画像と組み合わせた場合のAI編集であると認識している。
関連論文リスト
- Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing [76.44219733285898]
Kontinuous Kontext は命令駆動の編集モデルであり、編集強度を制御できる新しい次元を提供する。
軽量プロジェクタネットワークは、入力スカラーと編集命令をモデルの変調空間の係数にマッピングする。
本モデルのトレーニングには,既存の生成モデルを用いて,画像編集・指導・強化四重項の多種多様なデータセットを合成する。
論文 参考訳(メタデータ) (2025-10-09T17:51:03Z) - DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。