論文の概要: CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
- arxiv url: http://arxiv.org/abs/2508.06937v2
- Date: Sun, 26 Oct 2025 07:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.74192
- Title: CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
- Title(参考訳): CannyEdit: 学習不要の画像編集のための選択型キャニーコントロールとデュアルプロンプトガイダンス
- Authors: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang,
- Abstract要約: CannyEditは、地域画像編集のための新しいトレーニング不要のフレームワークである。
Canny ControlNetから未編集領域のみに構造的なガイダンスを適用し、元のイメージの詳細を保存する。
CannyEditは例外的な柔軟性を提供しており、粗いマスクや、追加タスクのシングルポイントヒントで効果的に動作する。
- 参考スコア(独自算出の注目度): 10.535939265557895
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses this trilemma through two key innovations. First, Selective Canny Control applies structural guidance from a Canny ControlNet only to the unedited regions, preserving the original image's details while allowing for precise, text-driven changes in the specified editable area. Second, Dual-Prompt Guidance utilizes both a local prompt for the specific edit and a global prompt for overall scene coherence. Through this synergistic approach, these components enable controllable local editing for object addition, replacement, and removal, achieving a superior trade-off among text adherence, context fidelity, and editing seamlessness compared to current region-based methods. Beyond this, CannyEdit offers exceptional flexibility: it operates effectively with rough masks or even single-point hints in addition tasks. Furthermore, the framework can seamlessly integrate with vision-language models in a training-free manner for complex instruction-based editing that requires planning and reasoning. Our extensive evaluations demonstrate CannyEdit's strong performance against leading instruction-based editors in complex object addition scenarios.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの最近の進歩は,基礎モデルの創成的先行を生かして,訓練不要な地域画像編集を可能にしている。
しかし、既存の手法では、編集領域におけるテキストの付着性のバランス、未編集領域におけるコンテキストの忠実さ、編集のシームレスな統合に苦慮している。
CannyEditは2つの重要なイノベーションを通じて、このトリレンマに対処する、新しいトレーニング不要のフレームワークです。
まず、Selective Canny Controlは、Canny ControlNetからの構造化ガイダンスを未編集領域のみに適用し、元の画像の詳細を保存し、指定された編集可能な領域で正確なテキスト駆動の変更を可能にする。
第2に、Dual-Prompt Guidanceは、特定の編集のためのローカルプロンプトと、全体のシーンコヒーレンスのためのグローバルプロンプトの両方を利用する。
この相乗的アプローチにより、これらのコンポーネントは、オブジェクトの追加、置換、削除のための制御可能なローカル編集を可能にし、テキストの付着性、コンテキストの忠実性、そして現在のリージョンベースの方法と比較してシームレスに編集できる。
さらにCannyEditは、粗いマスクやシングルポイントのヒントを付加して効果的に動作するという、非常に柔軟な機能を提供している。
さらに、このフレームワークは、計画と推論を必要とする複雑な命令ベースの編集のためのトレーニング不要な方法で、視覚言語モデルとシームレスに統合することができる。
我々の広範な評価は、複雑なオブジェクトの追加シナリオにおいて、指導ベースの主要なエディタに対して、CannyEditの強力なパフォーマンスを示している。
関連論文リスト
- An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。