MT-EditFlow: Reinforcement Learning for Multi-Turn Image Editing with Flow Matching
Abstractの概要
MT-EditFlowは、フロー・マッチング・モデル上に構築された、マルチターン(連続的)画像編集のための強化学習フレームワークである。主にシングルターン編集用に学習されたオープンソースの画像エディタは、一度の失敗がシーケンス全体を台無しにし、エラーがターン間で伝播するため、連続的な設定において性能が低下すると本論文は主張している。この問題に対処するため、本手法はマルチターンの定式化と2つの報酬コンポーネント(指示の遵守とコンテンツの一貫性)を組み合わせ、報酬の集約、評価者のプロンプトモード、および融合戦略が学習にどのような影響を与えるかを調査している。このフレームワークは、ローカルな編集をマルチターン全体の成功と一致させるために軌跡レベルのアドバンテージ・ブロードキャストを利用し、GRPOおよびDiffusionNFTスタイルの強化学習手法の両方で機能するように設計されている。
新規性
本論文の主な新規性は、通常のシングルターン・単一報酬の設定ではなく、フロー・マッチング強化学習下でのマルチターン画像編集に向けた統合的な報酬信号の設計にある。また、本設定における特定の設計要素(マルチターン報酬の集約、指示遵守とコンテンツ一貫性信号のアドバンテージレベルでの融合、軌跡レベルのアドバンテージ・ブロードキャストなど)を導入し、分析を行っている。
成果
EdiVal-Benchにおいて、MT-EditFlowはターン3の総合性能でFLUX.1-Kontext-devを6.85ポイント、FLUX.2-klein-base-9Bを2.90ポイント向上させ、特に後半のターンでその効果が顕著であった。報告されたFLUX.1-Kontext-devの結果は、ターン3の総合スコアにおいてオープンソースのQwen-Image-Editベースラインをも上回っている。さらに、本手法はImgEdit-Benchにおいてシングルターンの性能も適度に向上させ、ターン間の成功率低下を緩和することで、エクスポージャーバイアスの軽減を示している。
論文の注目点
- MT-EditFlowは、マルチターンの軌跡全体で指示の遵守とコンテンツの一貫性の両方を最適化することにより、フロー・マッチング強化学習を連続的な画像編集タスクへと拡張している。
- きめ細かいターンごとのスコアリング、思考モードのVLM評価、およびアドバンテージレベルでの融合が、より疎な手法や正規化が不十分な代替手法よりも効果的な報酬信号を提供することを明らかにしている。
- 実験により、オープンソースのバックボーンにおいてマルチターンの堅牢性が向上することが示され、後半のターンでの大幅な改善および編集プロセス全体におけるエラー伝播の軽減が確認された。