Fugu-MT 論文翻訳(概要): PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

論文の概要: PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

arxiv url: http://arxiv.org/abs/2602.22809v1
Date: Thu, 26 Feb 2026 09:46:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.629666
Title: PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning
Title（参考訳）: PhotoAgent:探索的視覚美学計画によるエージェント写真編集
Authors: Mingde Yao, Zhiyuan You, Tam-King Man, Menglu Wang, Tianfan Xue,
Abstract要約: PhotoAgentは、明示的な審美計画を通じて画像編集を進めるシステムだ。ユーザの美的意図を理由として、ツリー検索による複数ステップの編集アクションを計画し、クローズドループ実行によって結果を反復的に洗練する。実験では、PhotoAgentはベースライン法と比較して、命令順守と視覚的品質の両方を一貫して改善する。
参考スコア（独自算出の注目度）: 25.82494358581177
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the recent fast development of generative models, instruction-based image editing has shown great potential in generating high-quality images. However, the quality of editing highly depends on carefully designed instructions, placing the burden of task decomposition and sequencing entirely on the user. To achieve autonomous image editing, we present PhotoAgent, a system that advances image editing through explicit aesthetic planning. Specifically, PhotoAgent formulates autonomous image editing as a long-horizon decision-making problem. It reasons over user aesthetic intent, plans multi-step editing actions via tree search, and iteratively refines results through closed-loop execution with memory and visual feedback, without requiring step-by-step user prompts. To support reliable evaluation in real-world scenarios, we introduce UGC-Edit, an aesthetic evaluation benchmark consisting of 7,000 photos and a learned aesthetic reward model. We also construct a test set containing 1,017 photos to systematically assess autonomous photo editing performance. Extensive experiments demonstrate that PhotoAgent consistently improves both instruction adherence and visual quality compared with baseline methods. The project page is https://github.com/mdyao/PhotoAgent.
Abstract（参考訳）: 近年の高速な生成モデル開発により、命令ベースの画像編集は高品質な画像を生成する大きな可能性を示している。しかし、編集の質は慎重に設計された指示に大きく依存し、タスクの分解とシークエンシングの負担を完全にユーザに任せる。自律的な画像編集を実現するために,明快な審美計画を通じて画像編集を進めるPhotoAgentを提案する。具体的には、PhotoAgentは長期的な意思決定問題として、自律的な画像編集を定式化している。ユーザの美意識を理由として、ツリー検索による複数ステップの編集アクションを計画し、ステップバイステップのユーザプロンプトを必要とせずに、クローズドループの実行とメモリと視覚フィードバックによって結果を反復的に改善する。実世界のシナリオにおける信頼性評価を支援するために,7000枚の写真と学習された美的報酬モデルからなる美的評価ベンチマークであるUGC-Editを導入する。また,1017枚の写真を含むテストセットを構築し,自律的な写真編集性能を体系的に評価する。大規模な実験により、PhotoAgentはベースライン法と比較して、命令順守と視覚的品質の両方を一貫して改善することが示された。プロジェクトページはhttps://github.com/mdyao/PhotoAgent.com。

関連論文リスト

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling [69.36546486569146]
エージェント・バナは階層的なエージェント・プランナー・エグゼクティブ・フレームワークであり、高忠実で、オブジェクト指向で、熟考的な編集を行う。 Context Foldingは、長い相互作用履歴を構造化メモリに圧縮し、安定した長距離制御を行う。 Image Layer Decompositionは、非ターゲット領域を保存するために、ローカライズされたレイヤベースの編集を実行する。
論文参考訳（メタデータ） (2026-02-09T18:59:18Z)
How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2026-02-02T09:24:45Z)
EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文参考訳（メタデータ） (2025-12-05T18:58:09Z)
Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。 IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文参考訳（メタデータ） (2025-06-04T16:57:24Z)
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文参考訳（メタデータ） (2025-05-16T17:55:54Z)
SPICE: A Synergistic, Precise, Iterative, and Customizable Image Editing Workflow [13.815228931600236]
任意の解像度とアスペクト比を受け入れ、ユーザの要求を正確に追従し、100以上の編集ステップで画像品質を一貫して改善する、トレーニング不要のワークフローであるSPICEを紹介する。挑戦的なリアルなイメージ編集データセットでは、SPICEは最先端のベースラインを定量的に上回り、人間のアノテータに一貫して好まれる。
論文参考訳（メタデータ） (2025-04-13T19:13:04Z)
INRetouch: Context Aware Implicit Neural Representation for Photography Retouching [54.17599183365242]
本稿では、プロの編集から前後のイメージペアを通して学習する新しいリタッチ転送手法を提案する。我々は,画像の内容とコンテキストに基づいて,適応的に編集を適用することを学習する文脈認識型インプシットニューラル表現を開発した。提案手法は,参照編集から暗黙的な変換を抽出し,それらを新しい画像に適用する。
論文参考訳（メタデータ） (2024-12-05T03:31:48Z)
PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文参考訳（メタデータ） (2024-10-08T06:05:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。