論文の概要: MT-EditFlow: Reinforcement Learning for Multi-Turn Image Editing with Flow Matching
- arxiv url: http://arxiv.org/abs/2606.01985v1
- Date: Mon, 01 Jun 2026 09:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.702281
- Title: MT-EditFlow: Reinforcement Learning for Multi-Turn Image Editing with Flow Matching
- Title(参考訳): MT-EditFlow:フローマッチングを用いたマルチTurn画像編集のための強化学習
- Authors: Jiahui Huang, Yasi Zhang, Tianyu Chen, Shu Wang, Jianwen Xie, Oscar Leong, Mingyuan Zhou, Nanzhu Wang, Ying Nian Wu,
- Abstract要約: MT-EditFlowは、逐次画像編集のための報酬信号の最適化を目的とした、フローマッチング強化学習フレームワークである。
MT-EditFlowは多種多様なベースモデル間で性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 91.83651402045108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in instruction-based image editing have captured significant attention, as models are now capable of handling real-world editing demands with the practicality required by everyday users. However, editing models trained primarily for single-turn edits often break down in multi-turn editing--the natural interactive setting where a user iteratively refines an image based on the model's own previous outputs. This failure stems from the all-or-nothing requirement, where a single failed turn compromises the entire sequence, and error propagation, where exposure bias leads to compounding editing errors. To address these challenges, we introduce MT-EditFlow, a flow-matching reinforcement learning framework designed to optimize reward signals for sequential image editing. MT-EditFlow integrates a multi-turn perspective with a multi-reward formulation to provide a unified structure applicable to both GRPO and NFT-based reinforcement learning methods. We systematically analyze and optimize the reward signal by investigating effective scoring strategies for turn-level aggregation, VLM reasoning modes to trade off reward bias and variance, and advantage fusion levels to prevent reward hacking. Our findings reveal that broadcasting the aggregated advantage across the entire editing trajectory effectively bridges the gap between local planning and global multi-turn task success. Extensive experiments demonstrate that MT-EditFlow significantly improves performance across diverse base models. Notably, it boosts FLUX.1-Kontext-dev by 6.85 points in turn-3 overall performance, surpassing state-of-the-art open-source models such as Qwen-Image-Edit. By maintaining high marginal success rates and reducing exposure bias, MT-EditFlow provides a foundation for more reliable and natural human-AI collaboration in visual content creation.
- Abstract(参考訳): 近年のインストラクションベースの画像編集のブレークスルーは、日々のユーザに必要な実用性で現実の編集要求を処理できるモデルが登場し、大きな注目を集めている。
しかし、主にシングルターン編集のために訓練された編集モデルは、ユーザがモデルの以前の出力に基づいて画像を反復的に洗練する自然なインタラクティブな設定であるマルチターン編集でしばしば分解される。
この失敗は、1回の失敗がシーケンス全体を損なうというオール・オー・ナッシングの要求と、露出バイアスが編集エラーを複雑にするエラーの伝播に起因している。
これらの課題に対処するために,逐次画像編集のための報酬信号の最適化を目的としたフローマッチング強化学習フレームワークMT-EditFlowを紹介する。
MT-EditFlowはマルチターン・パースペクティブとマルチリワード・フォーミュレーションを統合し、GRPOとNFTベースの強化学習法の両方に適用可能な統一構造を提供する。
我々は、ターンレベルのアグリゲーション、報酬バイアスと分散をトレードオフするVLM推論モード、報酬ハッキングを防ぐための融合レベルを効果的に評価し、報酬信号を体系的に分析し、最適化する。
この結果から,編集過程全体にわたって集約的優位性をブロードキャストすることで,局所的な計画とグローバルなマルチターンタスク成功のギャップを効果的に埋めることができることがわかった。
MT-EditFlowは多種多様なベースモデルのパフォーマンスを大幅に向上させる。
FLUX.1-Kontext-devの全体的なパフォーマンスは6.85ポイント向上し、Qwen-Image-Editのような最先端のオープンソースモデルを上回っている。
高限界の成功率を維持し、露出バイアスを低減することで、MT-EditFlowは、視覚コンテンツ作成においてより信頼性が高く自然な人間とAIのコラボレーションの基礎を提供する。
関連論文リスト
- Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback [41.41713036839503]
本稿では,ポリシー最適化に基づく命令ベースの画像編集のための新しいポストトレーニングフレームワークであるEdit-R1を紹介する。
我々は,Multimodal Large Language Model (MLLM) を統一学習自由報酬モデルとして採用し,その出力ロジットを活用し,きめ細かいフィードバックを提供する。
私たちのフレームワークはモデルに依存しないため、多様なベースモデルに適用した場合、大幅なパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2025-10-19T15:38:06Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。