論文の概要: I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2601.03741v1
- Date: Wed, 07 Jan 2026 09:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.460072
- Title: I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing
- Title(参考訳): I2E:画像画像からテキストガイド画像編集のためのアクション可能なインタラクティブ環境へ
- Authors: Jinghan Yu, Junhao Xiao, Chenyu Zhu, Jiaming Li, Jia Li, HanMing Deng, Xirui Wang, Guoli Jia, Jianjun Li, Zhiyuan Ma, Xiang Bai, Bowen Zhou,
- Abstract要約: I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 59.434028565445885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-guided image editing methods primarily rely on end-to-end pixel-level inpainting paradigm. Despite its success in simple scenarios, this paradigm still significantly struggles with compositional editing tasks that require precise local control and complex multi-object spatial reasoning. This paradigm is severely limited by 1) the implicit coupling of planning and execution, 2) the lack of object-level control granularity, and 3) the reliance on unstructured, pixel-centric modeling. To address these limitations, we propose I2E, a novel "Decompose-then-Action" paradigm that revisits image editing as an actionable interaction process within a structured environment. I2E utilizes a Decomposer to transform unstructured images into discrete, manipulable object layers and then introduces a physics-aware Vision-Language-Action Agent to parse complex instructions into a series of atomic actions via Chain-of-Thought reasoning. Further, we also construct I2E-Bench, a benchmark designed for multi-instance spatial reasoning and high-precision editing. Experimental results on I2E-Bench and multiple public benchmarks demonstrate that I2E significantly outperforms state-of-the-art methods in handling complex compositional instructions, maintaining physical plausibility, and ensuring multi-turn editing stability.
- Abstract(参考訳): 既存のテキスト誘導画像編集手法は、主にエンド・ツー・エンドのピクセルレベルの塗装パラダイムに依存している。
単純なシナリオでの成功にもかかわらず、このパラダイムは、正確な局所制御と複雑な多目的空間推論を必要とする構成的編集タスクに依然としてかなり苦労している。
このパラダイムは厳しく制限されている
1)計画と実行の暗黙の結合
2【対象レベル制御の粒度の欠如】
3)非構造化画素中心モデリングへの依存。
これらの制約に対処するため、構造化環境下での動作可能なインタラクションプロセスとして画像編集を再考する新しい「分解・テーマ・アクション」パラダイム「I2E」を提案する。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、さらに複雑な命令をChain-of-Thought推論を介して一連のアトミックアクションに解析する物理対応のVision-Language-Action Agentを導入する。
さらに,マルチインスタンス空間推論と高精度編集のためのベンチマークであるI2E-Benchを構築した。
I2E-Benchおよび複数の公開ベンチマークの実験結果から、I2Eは複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法を著しく上回っていることが示された。
関連論文リスト
- MIRA: Multimodal Iterative Reasoning Agent for Image Editing [48.41212094929379]
本稿では,MIRA(Multimodal Iterative Reasoning Agent)を提案する。
単一のプロンプトや静的プランを発行する代わりに、MIRAは、視覚的なフィードバックを使用して、その決定を行うために、段階的にアトミックな編集命令を予測する。
われわれの150Kマルチモーダルツール使用データセットであるMIRA-Editingと2段階のSFT + GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集命令に対して推論と編集を行うことができる。
論文 参考訳(メタデータ) (2025-11-26T06:13:32Z) - Understanding the Implicit User Intention via Reasoning with Large Language Model for Image Editing [23.69189799564107]
既存の画像編集手法は、単純な編集命令をうまく処理できる。
複雑な編集命令を扱うためには、大きな言語モデル(LLM)と拡散モデル(DM)を共同で微調整する必要があることが多い。
我々は,textbfLLM textbfReasoning (CIELR) による textbfComplex textbfImage textbfEditing と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-10-31T10:06:28Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。
本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。
編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:30:52Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - FunEditor: Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは生成タスクにおいて優れた性能を示しており、画像編集の理想的な候補となっている。
本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。
推論の4ステップだけで、FunEditorは既存の一般的なメソッドよりも5~24倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-16T02:33:55Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。