論文の概要: Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
- arxiv url: http://arxiv.org/abs/2507.05259v1
- Date: Mon, 07 Jul 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.566371
- Title: Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
- Title(参考訳): 簡単な編集を超えて:複雑なインストラクションベースの画像編集のためのX-Planner
- Authors: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh,
- Abstract要約: X-Plannerは、ユーザの意図をモデル機能の編集に橋渡しする計画システムである。
X-プラナーは、複雑な命令をより単純で明確なサブ命令に体系的に分解するために、チェーン・オブ・シント推論を用いる。
各サブインストラクションに対して、X-Plannerは、自動的に正確な編集タイプとセグメンテーションマスクを生成し、手作業による介入を排除し、ローカライズされたアイデンティティ保存編集を保証する。
- 参考スコア(独自算出の注目度): 43.3517273862321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion-based image editing methods have significantly advanced text-guided tasks but often struggle to interpret complex, indirect instructions. Moreover, current models frequently suffer from poor identity preservation, unintended edits, or rely heavily on manual masks. To address these challenges, we introduce X-Planner, a Multimodal Large Language Model (MLLM)-based planning system that effectively bridges user intent with editing model capabilities. X-Planner employs chain-of-thought reasoning to systematically decompose complex instructions into simpler, clear sub-instructions. For each sub-instruction, X-Planner automatically generates precise edit types and segmentation masks, eliminating manual intervention and ensuring localized, identity-preserving edits. Additionally, we propose a novel automated pipeline for generating large-scale data to train X-Planner which achieves state-of-the-art results on both existing benchmarks and our newly introduced complex editing benchmark.
- Abstract(参考訳): 近年の拡散ベースの画像編集法は、テキスト誘導タスクが大幅に進歩しているが、複雑な間接的命令の解釈に苦慮することが多い。
さらに、現在のモデルは、アイデンティティの保存不足、意図しない編集、手動マスクに大きく依存することが多い。
これらの課題に対処するため,マルチモーダル大規模言語モデル(MLLM)に基づく計画システムであるX-Plannerを導入する。
X-プラナーは、複雑な命令をより単純で明確なサブ命令に体系的に分解するために、チェーン・オブ・シント推論を用いる。
各サブインストラクションに対して、X-Plannerは、自動的に正確な編集タイプとセグメンテーションマスクを生成し、手作業による介入を排除し、ローカライズされたアイデンティティ保存編集を保証する。
さらに,既存のベンチマークと,新たに導入された複雑な編集ベンチマークの両方で,最先端の結果が得られるような,大規模データを生成するための新しい自動パイプラインを提案する。
関連論文リスト
- Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。
本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。
編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:30:52Z) - SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding [45.79481252237092]
SmartFreeEditは、マルチモーダルな大規模言語モデル(MLLM)とハイパーグラフ強化のインペイントアーキテクチャを統合するエンドツーエンドフレームワークである。
SmartFreeEditの主なイノベーションは、リージョン認識トークンとマスク埋め込みパラダイムである。
Reason-Editベンチマークの実験では、SmartFreeEditが現在の最先端メソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-04-17T07:17:49Z) - XY-Cut++: Advanced Layout Ordering via Hierarchical Mask Mechanism on a Novel Benchmark [1.9020548287019097]
XY-Cut++は、事前マスク処理、多粒度セグメンテーション、およびクロスモーダルマッチングを統合するレイアウト順序付け手法である。
最先端のパフォーマンス(全体の98.8BLEU)を達成し、シンプルさと効率性を維持している。
論文 参考訳(メタデータ) (2025-04-14T14:19:57Z) - Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing [26.02149948089938]
Instruction Influence Disentanglement (IID) は,複数命令の並列実行を可能にする新しいフレームワークである。
我々は、DiTにおける自己注意機構を分析し、各命令の影響を解消するために、命令固有の注意マスクを導出する。
IIDは、既存のベースラインと比較して、忠実度と命令完了性を改善しながら拡散ステップを削減する。
論文 参考訳(メタデータ) (2025-04-07T07:26:25Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。