論文の概要: JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
- arxiv url: http://arxiv.org/abs/2511.23002v1
- Date: Fri, 28 Nov 2025 09:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.837189
- Title: JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
- Title(参考訳): JarvisEvo:Synergistic Editor-Evaluator Optimizationを用いた自己進化型写真編集エージェントを目指して
- Authors: Yunlong Lin, Linqing Wang, Kunjie Lin, Zixu Lin, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding, Chunyu Wang, Qinglin Lu,
- Abstract要約: JarvisEvoは、反復的に編集し、適切なツールを選択し、結果を評価し、結果を洗練するための独自の決定を反映することによって、専門家の人間デザイナーをエミュレートする。
ArtEdit-Benchでは、JarvisEvoがNano-Bananaを平均18.95%上回っている。
- 参考スコア(独自算出の注目度): 39.107071937105395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent-based editing models have substantially advanced interactive experiences, processing quality, and creative flexibility. However, two critical challenges persist: (1) instruction hallucination, text-only chain-of-thought (CoT) reasoning cannot fully prevent factual errors due to inherent information bottlenecks; (2) reward hacking, dynamic policy optimization against static reward models allows agents to exploit flaws in reward functions. To address these issues, we propose JarvisEvo, a unified image editing agent that emulates an expert human designer by iteratively editing, selecting appropriate tools, evaluating results, and reflecting on its own decisions to refine outcomes. JarvisEvo offers three key advantages: (1) an interleaved multimodal chain-of-thought (iMCoT) reasoning mechanism that enhances instruction following and editing quality; (2) a synergistic editor-evaluator policy optimization (SEPO) framework that enables self-improvement without external rewards, effectively mitigating reward hacking; and (3) support for both global and local fine-grained editing through seamless integration of Adobe Lightroom. On ArtEdit-Bench, JarvisEvo outperforms Nano-Banana by an average of 18.95% on preservative editing metrics, including a substantial 44.96% improvement in pixel-level content fidelity.
- Abstract(参考訳): エージェントベースの編集モデルは、かなり高度なインタラクティブ体験、処理品質、創造的柔軟性を持っている。
しかし,(1) 命令幻覚, テキストのみのチェーン・オブ・シンク(CoT)推論は, 固有の情報ボトルネックによる事実エラーを完全に防止できない,(2) 報酬ハッキング, 静的報酬モデルに対する動的ポリシー最適化により, エージェントは報酬関数の欠陥を活用できる,という2つの重要な課題が続いている。
これらの課題に対処するため、我々はJarvisEvoを提案する。JarvisEvoは、専門家のデザイナーを反復的に編集し、適切なツールを選択し、結果を評価し、結果を洗練するための独自の決定を反映することで、専門家のデザイナーをエミュレートする統合画像編集エージェントである。
JarvisEvo は,(1) 命令追従と編集品質を高めるインターリーブ型マルチモーダルチェーン・オブ・シークレット (iMCoT) 推論機構,(2) 外部報酬のない自己改善を可能にする相乗的エディタ・評価ポリシー最適化 (SEPO) フレームワーク, (3) アドビ・ライトルームのシームレスな統合によるグローバルおよびローカルな微粒化編集のサポート,の3つの利点を提供している。
ArtEdit-Benchでは、JarvisEvoがNano-Bananaを平均18.95%上回っている。
関連論文リスト
- LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent [74.64342043677975]
写真のリタッチは現代のビジュアルなストーリーテリングに不可欠なものとなり、ユーザーは美学を捉え創造性を表現できる。
本稿では,マルチモーダル言語モデル(MLLM)に基づくエージェントであるJarvisArtを紹介し,ユーザ意図を理解し,プロのアーティストの推論プロセスを模倣し,Lightroom内の200以上の修正ツールをインテリジェントにコーディネートする。
実世界のユーザ編集から構築した新しいベンチマークであるMMArt-Benchを開発した。
JarvisArt は GPT-4o よりもパフォーマンスが向上し、MMArt-Bench で平均ピクセルレベルのメトリクスが60%向上した。
論文 参考訳(メタデータ) (2025-06-21T06:36:00Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing [38.804508101698275]
本稿では,顔画像編集のためのS3Editorについて紹介する。
まず、S3Editorは自己学習パラダイムを採用し、セミスーパービジョンを通じてトレーニングプロセスを強化する。
次に,多様な編集要求に対応する動的ルーティング機構を備えた意味的不整合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-04-11T20:25:26Z) - Responsible Visual Editing [53.45295657891099]
画像内の特定の概念を修正し、変更を最小化しながら、より責任を負うようにする。
有害な画像が研究に与える影響を緩和するため、人間の代わりにテディベアを用いて有害な情報を表現した透明でパブリックなデータセットAltBearを作成しました。
AltBearデータセットは、実画像に見られる有害な内容とよく一致し、一貫した実験的な評価を提供する。
論文 参考訳(メタデータ) (2024-04-08T14:56:26Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable
Facial Editing [110.82128064489237]
本稿では、より制御しやすい編集を実現するために、デュアルスペースGANにおけるインタラクションを強化する新しいトランスフォーマーベースのフレームワークであるTransEditorを提案する。
画像品質と編集能力において提案するフレームワークの優位性を示す実験により,高い制御性を有する顔編集におけるTransEditorの有効性が示唆された。
論文 参考訳(メタデータ) (2022-03-31T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。