論文の概要: From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing
- arxiv url: http://arxiv.org/abs/2605.15181v1
- Date: Thu, 14 May 2026 17:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.009849
- Title: From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing
- Title(参考訳): プランからピクセルへ:オープンな画像編集のための計画とオーケストレーションを学ぶ
- Authors: Anirudh Sundara Rajan, Krishna Kumar Singh, Yong Jae Lee,
- Abstract要約: プランナーが構造化された原子分解を生成し、オーケストレータがツールとリージョンを選択して各ステップを実行する。
視覚言語審査員は、指示の順守と視覚的品質に対する結果に基づく報酬を提供する。
我々のアプローチは、シングルステップやルールベースのマルチステップベースラインよりも一貫性があり、信頼性の高い編集をもたらす。
- 参考スコア(独自算出の注目度): 46.522466571600205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern image editing models produce realistic results but struggle with abstract, multi step instructions (e.g., ``make this advertisement more vegetarian-friendly''). Prior agent based methods decompose such tasks but rely on handcrafted pipelines or teacher imitation, limiting flexibility and decoupling learning from actual editing outcomes. We propose an experiential framework for long-horizon image editing, where a planner generates structured atomic decompositions and an orchestrator selects tools and regions to execute each step. A vision language judge provides outcome-based rewards for instruction adherence and visual quality. The orchestrator is trained to maximize these rewards, and successful trajectories are used to refine the planner. By tightly coupling planning with reward driven execution, our approach yields more coherent and reliable edits than single-step or rule-based multistep baselines.
- Abstract(参考訳): 現代の画像編集モデルは現実的な結果を生み出すが、抽象的で多段階的な指示(例えば、『この広告をベジタリアンに優しくする』)に苦しむ。
従来のエージェントベースのメソッドはそのようなタスクを分解するが、手作りのパイプラインや教師の模倣に依存し、柔軟性を制限し、実際の編集結果から学習を分離する。
そこでは,プランナーが構造化原子分解を生成し,オーケストレータが各ステップを実行するためのツールや領域を選択する。
視覚言語審査員は、指示の順守と視覚的品質に対する結果に基づく報酬を提供する。
オーケストラはこれらの報酬を最大化するために訓練され、成功した軌道はプランナーを洗練するために使用される。
提案手法は,計画と報酬駆動実行を密結合することにより,単一ステップやルールベースのマルチステップベースラインよりも一貫性と信頼性の高い編集を行う。
関連論文リスト
- ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning [20.61925053714293]
画像編集システムは複雑な、間接的な、多段階のユーザー命令に悩まされることが多い。
本稿では,画像編集のためのマルチエージェントフレームワークであるImageEdit-R1を提案する。
本手法は,画像編集を逐次意思決定問題として扱い,動的かつコンテキスト対応な編集戦略を実現する。
論文 参考訳(メタデータ) (2026-03-09T07:50:14Z) - Instruction-based Image Editing with Planning, Reasoning, and Generation [52.0364486403062]
以前の作業では、大きな言語モデル、オブジェクトセグメンテーションモデル、このタスクのためのモデル編集の連鎖を利用していた。
我々は、命令ベースの画像編集モデルにインテリジェントな能力を提供する新しいマルチモーダリティモデルにより、理解と生成をブリッジすることを目指している。
本手法は,複雑な実世界の画像に対して,競合する編集能力を有する。
論文 参考訳(メタデータ) (2026-02-26T04:56:02Z) - TalkPhoto: A Versatile Training-Free Conversational Assistant for Intelligent Image Editing [21.708181904910177]
MLLM(Multimodal Large Language Models)は、命令と画像間の情報交換を促進する。
これらのフレームワークは、複数の編集タスクを処理するためにモデルをトレーニングするために、しばしばマルチインストラクションデータセットを構築する。
本研究では,対話型インタラクションによる正確な画像操作を容易にする,多目的なトレーニング不要な画像編集フレームワークであるTalkPhotoを紹介する。
論文 参考訳(メタデータ) (2026-01-05T09:00:32Z) - EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文 参考訳(メタデータ) (2025-12-05T18:58:09Z) - Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing [16.943575863059607]
Image-POSERは、事前訓練されたテキスト・ツー・イメージの専門家とイメージ・ツー・イメージの専門家の多様なレジストリをオーケストレーションする。
動的タスクの分解を通じて、エンドツーエンドのプロンプトを処理します。
人間の評価において常に好まれる。
論文 参考訳(メタデータ) (2025-11-15T03:15:34Z) - Training-Free Reward-Guided Image Editing via Trajectory Optimal Control [55.64204232819136]
トレーニング不要な報酬誘導画像編集のための新しいフレームワークを提案する。
提案手法は,既存のインバージョンベースのトレーニングフリーベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-30T06:34:37Z) - VINCIE: Unlocking In-context Image Editing from Video [62.88977098700917]
本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。
このデータから効果的に学習するために、3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。
本モデルでは,2つのマルチターン画像編集ベンチマークにおいて,コンテクスト内画像編集能力が強く,最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-06-12T17:46:54Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。