論文の概要: Towards Robust Sequential Decomposition for Complex Image Editing
- arxiv url: http://arxiv.org/abs/2605.09233v1
- Date: Sun, 10 May 2026 00:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.131255
- Title: Towards Robust Sequential Decomposition for Complex Image Editing
- Title(参考訳): 複雑な画像編集のためのロバストな逐次分解に向けて
- Authors: Zilai Zeng, Mingdeng Cao, Zijie Li, Xiaochen Lian, Yichun Shi, Peihao Zhu, Chen Sun, Peng Wang,
- Abstract要約: 複雑な編集タスクを構成する合成データパイプラインを開発し、高品質な分解配列で大規模な編集データセットをキュレートする。
合成データの微調整により、適切に設計された編集パラダイムにより、タスクの複雑さが増大しても、逐次分解が堅牢な改善をもたらすことが判明した。
- 参考スコア(独自算出の注目度): 26.747812783393204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in visual generative models have enabled high-fidelity image editing guided by human instructions. However, these models often struggle with complex instructions involving combinatorial editing operations or inter-step dependencies. This difficulty stems from the limitations of two canonical paradigms: (1) single-turn editing, which attempts to apply all instructed edits in one pass, often fails to parse the complex instruction accurately and causes undesired edits; and (2) sequential editing can decompose the task into simpler steps but suffers from compounding errors introduced by the sequential execution, leading to low-fidelity results. To derive a robust solution for complex image editing, we examine editing behaviors of different paradigms under a unified in-context editing framework, and study how the benefits of sequential decomposition can be balanced against its error-accumulation drawbacks. We further develop a synthetic data pipeline that constructs editing tasks of varying instruction complexity, allowing us to curate a large-scale editing dataset with high-quality decomposed sequences. By finetuning on synthetic data, we discovered that with properly designed editing paradigms, sequential decomposition yields robust improvements even as task complexity increases. Furthermore, the decomposition skills learned from synthetic tasks can transfer to real images by co-training with real-world editing data, demonstrating the promise of sim-to-real generalization for tackling complex image editing across broader domains.
- Abstract(参考訳): 近年の視覚生成モデルの進歩により、人間の指示でガイドされた高忠実度画像編集が可能になった。
しかしながら、これらのモデルは組合せ編集操作やステップ間の依存関係を含む複雑な命令に悩まされることが多い。
この難しさは、2つの標準的パラダイムの限界に起因している:(1) 指示されたすべての編集を1パスで適用しようとする一ターン編集は、しばしば複雑な命令を正確に解析できず、望ましくない編集を引き起こす。
複雑な画像編集のためのロバストなソリューションを導出するため,統合されたインコンテキスト編集フレームワークの下で,異なるパラダイムの編集挙動を検証し,逐次分解の利点がエラー蓄積の欠点に対してどのようにバランスをとるかを検討する。
さらに、命令複雑性の異なる編集タスクを構築するための合成データパイプラインを開発し、高品質な分解配列で大規模な編集データセットをキュレートする。
合成データの微調整により、適切に設計された編集パラダイムにより、タスクの複雑さが増大しても、逐次分解が堅牢な改善をもたらすことが判明した。
さらに、合成タスクから学んだ分解スキルは、実世界の編集データと協調訓練することで、より広い領域にわたる複雑な画像編集に取り組むためのシミュレートと現実の一般化の約束を示すことによって、実際の画像に転送することができる。
関連論文リスト
- Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions [27.891822809255682]
本稿では,基本モデルを変更することなく,編集性能を向上させる適応型タスク修正フレームワークを提案する。
私たちのキーとなるアイデアは、元のイメージインストラクションペアをMLLMエージェントによって動的に決定され実行される一連の操作に変換することです。
論文 参考訳(メタデータ) (2026-04-17T10:17:22Z) - FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。
FlowDCは既存の方法に比べて優れた結果を示した。
論文 参考訳(メタデータ) (2025-12-12T09:08:39Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。