論文の概要: RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing
- arxiv url: http://arxiv.org/abs/2512.16864v1
- Date: Thu, 18 Dec 2025 18:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.211616
- Title: RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing
- Title(参考訳): RePlan:複雑なインストラクションに基づく画像編集のための推論誘導型地域計画
- Authors: Tianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia,
- Abstract要約: RePlanは、視覚言語プランナーと拡散エディタを結合した計画実行フレームワークである。
プランナーはステップバイステップの推論を通じて命令を分解し、ターゲット領域に明示的に配置する。
エディタはトレーニング不要のアテンションリージョンインジェクション機構を使用して変更を適用する。
- 参考スコア(独自算出の注目度): 80.70169829264812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing enables natural-language control over visual modifications, yet existing models falter under Instruction-Visual Complexity (IV-Complexity), where intricate instructions meet cluttered or ambiguous scenes. We introduce RePlan (Region-aligned Planning), a plan-then-execute framework that couples a vision-language planner with a diffusion editor. The planner decomposes instructions via step-by-step reasoning and explicitly grounds them to target regions; the editor then applies changes using a training-free attention-region injection mechanism, enabling precise, parallel multi-region edits without iterative inpainting. To strengthen planning, we apply GRPO-based reinforcement learning using 1K instruction-only examples, yielding substantial gains in reasoning fidelity and format reliability. We further present IV-Edit, a benchmark focused on fine-grained grounding and knowledge-intensive edits. Across IV-Complex settings, RePlan consistently outperforms strong baselines trained on far larger datasets, improving regional precision and overall fidelity. Our project page: https://replan-iv-edit.github.io
- Abstract(参考訳): インストラクションベースの画像編集は、視覚的な修正を自然言語で制御できるが、既存のモデルはインストラクション・ビジュアル複雑度(IV-複雑度)の下では、複雑な命令が散らばったシーンや曖昧なシーンに合う。
RePlan(Region-aligned Planning)は、視覚言語プランナーと拡散エディターを結合した計画実行フレームワークである。
プランナーはステップバイステップの推論を通じて命令を分解し、明示的にターゲット領域に配置する。エディタはトレーニング不要の注目領域注入機構を使用して変更を適用する。
計画強化のために,1K命令のみの例を用いてGRPOに基づく強化学習を適用し,忠実度とフォーマットの信頼性を推算する上で,かなりの効果が得られた。
さらに、細粒度な接地と知識集約的な編集に焦点を当てたベンチマークであるIV-Editを提示する。
IV-Complex設定全体を通じて、RePlanは、はるかに大きなデータセットでトレーニングされた強力なベースラインを一貫して上回り、地域精度と全体的な忠実度を改善している。
プロジェクトページ: https://replan-iv-edit.github.io
関連論文リスト
- SketchAssist: A Practical Assistant for Semantic Edits and Precise Local Redrawing [13.733328072282049]
そこで,SketchAssistを提案する。SketchAssistは,命令誘導のグローバル編集と行誘導のリージョン再描画を一体化することで,作成を加速するインタラクティブスケッチ描画アシスタントである。
このアシスタントを大規模に実現するために、(i)属性のないベーススケッチから属性付加シーケンスを構築する制御可能なデータ生成パイプラインを導入し、(ii)クロスシーケンスサンプリングによりマルチステップ編集チェーンを作成し、(iii)スタイル保存型属性削除モデルでスタイルカバレッジを拡張する。
論文 参考訳(メタデータ) (2025-12-16T06:50:44Z) - Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control [52.87568958372421]
Follow-Your-Shapeは、トレーニング不要でマスクなしのフレームワークで、オブジェクト形状の正確かつ制御可能な編集をサポートする。
インバージョンとデノナイジングパスのトークン単位の速度差を比較することで,TDM(Torjectory Divergence Map)を算出する。
本手法は、特に大規模な形状変更を必要とするタスクにおいて、優れた編集性と視覚的忠実性を実現する。
論文 参考訳(メタデータ) (2025-08-11T16:10:00Z) - CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing [10.535939265557895]
CannyEditは、地域画像編集のための新しいトレーニング不要のフレームワークである。
Canny ControlNetから未編集領域のみに構造的なガイダンスを適用し、元のイメージの詳細を保存する。
CannyEditは例外的な柔軟性を提供しており、粗いマスクや、追加タスクのシングルポイントヒントで効果的に動作する。
論文 参考訳(メタデータ) (2025-08-09T11:06:58Z) - Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing [43.3517273862321]
X-Plannerは、ユーザの意図をモデル機能の編集に橋渡しする計画システムである。
X-プラナーは、複雑な命令をより単純で明確なサブ命令に体系的に分解するために、チェーン・オブ・シント推論を用いる。
各サブインストラクションに対して、X-Plannerは、自動的に正確な編集タイプとセグメンテーションマスクを生成し、手作業による介入を排除し、ローカライズされたアイデンティティ保存編集を保証する。
論文 参考訳(メタデータ) (2025-07-07T17:59:56Z) - SPIE: Semantic and Structural Post-Training of Image Editing Diffusion Models with AI feedback [28.807572302899004]
SPIEは、命令ベースの画像編集拡散モデルの意味的および構造的後学習のための新しいアプローチである。
広範な人間のアノテーションに頼ることなく、拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。
実験結果から,SPIEは複雑なシーンで,わずか10ステップで複雑な編集を行うことができることがわかった。
論文 参考訳(メタデータ) (2025-04-17T10:46:39Z) - DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。