論文の概要: RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward
- arxiv url: http://arxiv.org/abs/2602.17558v1
- Date: Thu, 19 Feb 2026 17:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.232683
- Title: RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward
- Title(参考訳): RetouchIQ:Generalist RewardによるインストラクションベースのイメージリタッチのためのMLLMエージェント
- Authors: Qiucheng Wu, Jing Shi, Simon Jenni, Kushal Kafle, Tianyu Wang, Shiyu Chang, Handong Zhao,
- Abstract要約: 本稿では、報酬モデルでガイドされたMLLMエージェントを介して命令ベースの実行可能画像編集を行うフレームワークであるRetouchIQを紹介する。
RetouchIQは従来のMLLMベースの編集システムや拡散ベースの編集システムよりも意味的一貫性と知覚的品質の両方を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 64.78078130943489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have shown great potential for extending vision-language reasoning to professional tool-based image editing, enabling intuitive and creative editing. A promising direction is to use reinforcement learning (RL) to enable MLLMs to reason about and execute optimal tool-use plans within professional image-editing software. However, training remains challenging due to the lack of reliable, verifiable reward signals that can reflect the inherently subjective nature of creative editing. In this work, we introduce RetouchIQ, a framework that performs instruction-based executable image editing through MLLM agents guided by a generalist reward model. RetouchIQ interprets user-specified editing intentions and generates corresponding, executable image adjustments, bridging high-level aesthetic goals with precise parameter control. To move beyond conventional, rule-based rewards that compute similarity against a fixed reference image using handcrafted metrics, we propose a generalist reward model, an RL fine-tuned MLLM that evaluates edited results through a set of generated metrics on a case-by-case basis. Then, the reward model provides scalar feedback through multimodal reasoning, enabling reinforcement learning with high-quality, instruction-consistent gradients. We curate an extended dataset with 190k instruction-reasoning pairs and establish a new benchmark for instruction-based image editing. Experiments show that RetouchIQ substantially improves both semantic consistency and perceptual quality over previous MLLM-based and diffusion-based editing systems. Our findings demonstrate the potential of generalist reward-driven MLLM agents as flexible, explainable, and executable assistants for professional image editing.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、視覚言語推論をプロのツールベースの画像編集に拡張し、直感的で創造的な編集を可能にする大きな可能性を示している。
有望な方向性は、プロのイメージ編集ソフトウェア内でMLLMが最適なツール利用計画を推論し実行できるようにするために強化学習(RL)を使用することである。
しかし、創造的な編集という本質的に主観的な性質を反映できる信頼性があり検証可能な報酬信号が欠如しているため、トレーニングは依然として困難なままである。
本稿では,汎用的な報酬モデルによってガイドされたMLLMエージェントを通じて,命令ベースの実行可能画像編集を行うフレームワークであるRetouchIQを紹介する。
RetouchIQは、ユーザが指定した編集意図を解釈し、対応する実行可能な画像調整を生成し、正確なパラメータ制御で高いレベルの美的目標をブリッジする。
本研究は,手作業による基準画像との類似性を計算する従来のルールベース報酬を超えて,ケース・バイ・ケース・バイ・ケース・ベースで生成したメトリクスの集合を用いて,編集結果を評価する汎用的報酬モデルであるRLファインチューニングMLLMを提案する。
そして、報酬モデルにより、マルチモーダル推論によるスカラーフィードバックが提供され、高品質で命令一貫性のある勾配を持つ強化学習が可能となる。
我々は190kの命令推論ペアで拡張データセットをキュレートし、命令ベースの画像編集のための新しいベンチマークを確立する。
実験により、RetouchIQは従来のMLLMベースの編集システムと拡散ベースの編集システムよりも意味的一貫性と知覚的品質の両方を大幅に改善することが示された。
本研究は, 汎用報酬駆動型MLLMエージェントが, プロ画像編集のための柔軟性, 説明性, 実行可能なアシスタントとしての可能性を示すものである。
関連論文リスト
- EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文 参考訳(メタデータ) (2025-12-05T18:58:09Z) - ReasonEdit: Towards Reasoning-Enhanced Image Editing Models [60.902953259781675]
一般的なアーキテクチャ設計では、多モード大言語モデル(MLLM)エンコーダと拡散デコーダを結合する。
MLLMの推論能力のアンロックは、編集モデルのバウンダリを押し上げることができることを示す。
提案フレームワークは,思考・編集・リフレクションループにおける画像編集を可能にする。
論文 参考訳(メタデータ) (2025-11-27T17:02:48Z) - Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback [41.41713036839503]
本稿では,ポリシー最適化に基づく命令ベースの画像編集のための新しいポストトレーニングフレームワークであるEdit-R1を紹介する。
我々は,Multimodal Large Language Model (MLLM) を統一学習自由報酬モデルとして採用し,その出力ロジットを活用し,きめ細かいフィードバックを提供する。
私たちのフレームワークはモデルに依存しないため、多様なベースモデルに適用した場合、大幅なパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2025-10-19T15:38:06Z) - MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills [37.48977077142813]
本稿では,MLLM(Multimodal large language model)を生画像の批判に応用できることを示す。
MLLMは、その基盤となる画像処理操作を最初に認識できることを実証する。
そして、専門家が編集した写真を手続き的に操作することで、推論データセットを合成する。
論文 参考訳(メタデータ) (2025-05-09T16:38:27Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。