論文の概要: Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions
- arxiv url: http://arxiv.org/abs/2604.15917v1
- Date: Fri, 17 Apr 2026 10:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.875077
- Title: Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions
- Title(参考訳): エージェント実行による適応的タスク修正による画像編集を容易にする
- Authors: Bo Zhao, Kairui Guo, Runnan Du, Haiyang Sun, Pengshan Wang, Huan Yang, Kun Gai, Yixin Cao, Wei Ji,
- Abstract要約: 本稿では,基本モデルを変更することなく,編集性能を向上させる適応型タスク修正フレームワークを提案する。
私たちのキーとなるアイデアは、元のイメージインストラクションペアをMLLMエージェントによって動的に決定され実行される一連の操作に変換することです。
- 参考スコア(独自算出の注目度): 27.891822809255682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction guided image editing has advanced substantially with recent generative models, yet it still fails to produce reliable results across many seemingly simple cases. We observe that a large portion of these failures stem not from insufficient model capacity, but from poorly formulated editing tasks, such as those involving small targets, implicit spatial relations, or under-specified instructions. In this work, we frame image editing failures as a task formulation problem and propose an adaptive task reformulation framework that improves editing performance without modifying the underlying model. Our key idea is to transform the original image-instruction pair into a sequence of operations that are dynamically determined and executed by a MLLM agent through analysis, routing, reformulation, and feedback-driven refinement. Experiments on multiple benchmarks, including ImgEdit, PICA, and RePlan, across diverse editing backbones such as Qwen Image Edit and Nano Banana, show consistent improvements, with especially large gains on challenging cases. These results suggest that task reformulation is a critical but underexplored factor, and that substantial gains can be achieved by better matching editing tasks to the effective operating regime of existing models.
- Abstract(参考訳): 指導指導による画像編集は、最近の生成モデルと大きく進歩しているが、多くの一見単純なケースで信頼性の高い結果が得られていない。
これらの失敗の大部分は、モデル能力の不足からではなく、小さな目標、暗黙の空間関係、未特定の指示など、未定の編集作業によるものであることが観察された。
本研究では,画像編集の失敗をタスクの定式化問題として捉え,基礎となるモデルを変更することなく,編集性能を向上させる適応型タスク修正フレームワークを提案する。
私たちのキーとなるアイデアは、元のイメージインストラクションペアを、分析、ルーティング、修正、フィードバック駆動の洗練を通じてMLLMエージェントによって動的に決定され、実行される一連の操作に変換することです。
ImgEdit、PICA、RePlanを含む複数のベンチマークの実験では、Qwen Image EditやNano Bananaといった多様な編集バックボーンが一貫した改善を示し、特に難しいケースでは大きな改善が見られた。
これらの結果から,タスクの修正は重要な要素であるが,未探索の要因であり,既存のモデルの効率的な運用体制と編集タスクの整合性を向上することで,かなりの利益が得られることが示唆された。
関連論文リスト
- CAMEO: A Conditional and Quality-Aware Multi-Agent Image Editing Orchestrator [8.901958956012072]
条件付き画像編集は、厳密な構造制御を必要とするシナリオにおいて不可欠である。
ほとんどのアプローチは単一ステップ生成に依存します。
我々は、条件付き編集を品質に配慮したフィードバック駆動プロセスとして再構成する構造化マルチエージェントフレームワーク、textbfCAMEOを提案する。
論文 参考訳(メタデータ) (2026-04-03T16:27:02Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - SPICE: A Synergistic, Precise, Iterative, and Customizable Image Editing Workflow [13.815228931600236]
任意の解像度とアスペクト比を受け入れ、ユーザの要求を正確に追従し、100以上の編集ステップで画像品質を一貫して改善する、トレーニング不要のワークフローであるSPICEを紹介する。
挑戦的なリアルなイメージ編集データセットでは、SPICEは最先端のベースラインを定量的に上回り、人間のアノテータに一貫して好まれる。
論文 参考訳(メタデータ) (2025-04-13T19:13:04Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - FunEditor: Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは生成タスクにおいて優れた性能を示しており、画像編集の理想的な候補となっている。
本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。
推論の4ステップだけで、FunEditorは既存の一般的なメソッドよりも5~24倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-16T02:33:55Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。