論文の概要: Edit-R2: Context-Aware Reinforcement Learning for Multi-Turn Image Editing
- arxiv url: http://arxiv.org/abs/2606.05950v1
- Date: Thu, 04 Jun 2026 09:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.649868
- Title: Edit-R2: Context-Aware Reinforcement Learning for Multi-Turn Image Editing
- Title(参考訳): Edit-R2:マルチスレッド画像編集のためのコンテキスト認識強化学習
- Authors: Yuxiao Ye, Haoran He, Fangyuan Kong, Xintao Wang, Pengfei Wan, Kun Gai, Ling Pan,
- Abstract要約: 統一マルチモーダルモデルのための新しい強化学習フレームワークであるEdit-R2を紹介する。
作業中のセッション意図を再構築し、散在する歴史的制約を編集の各ターンの前に明確な推論トレースに効果的に統合する。
強靭なベースラインに比べて競争力がある。
- 参考スコア(独自算出の注目度): 42.176441824728066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided image editing has advanced rapidly with diffusion models and unified multimodal foundation models. However, most existing methods remain confined to single-turn settings, overlooking the more realistic scenario of multi-turn in-context editing, where users iteratively refine an image through a sequence of instructions. In this setting, a model must follow each new instruction while preserving accumulated session-level constraints, challenged by two coupled failure modes: long-context dilution, where sparse textual constraints become difficult to recover from growing interleaved image-text histories, and state contamination, where earlier editing mistakes degrade subsequent generations. We introduce Edit-R2, a novel reinforcement learning post-training framework for unified multimodal models. Edit-R2 reconstructs the operative session intent, which effectively consolidates scattered historical constraints into an explicit reasoning trace before each editing turn. It further enables multi-turn RL over both reasoning and generation through a unified objective that jointly optimizes intent reconstruction generation in discrete text space and flow-matching image generation in continuous latent space, while a trajectory filtering mechanism suppresses corrupted rollouts to stabilize training under state contamination. To support systematic evaluation, we introduce MICE-Bench, a large-scale benchmark for multi-turn in-context editing with automated metrics for instruction following (IF), content consistency (CC), and global awareness (GA) over accumulated session constraints. Experiments show that Edit-R2 substantially improves multi-turn in-context editing and achieves competitive performance compared against strong baselines.
- Abstract(参考訳): テキスト誘導画像編集は拡散モデルと統合マルチモーダル基礎モデルにより急速に進歩した。
しかし、既存のほとんどのメソッドはシングルターン設定に限られており、マルチターンインテキスト編集のより現実的なシナリオを見落としている。
この設定では、モデルは、蓄積されたセッションレベルの制約を保ちながら、それぞれ新しい命令に従う必要がある。長文の希釈(long-context dilution) — インターリーブされた画像テキスト履歴の増大から、疎文の制約が回復しにくくなり、初期編集ミスがその後の世代で減少する状態汚染(state contamination) — である。
統合マルチモーダルモデルのための新しい強化学習後学習フレームワークであるEdit-R2を紹介する。
Edit-R2は操作セッションインテントを再構築し、散在する履歴制約を各編集ターンの前に明示的な推論トレースに効果的に統合する。
さらに、離散テキスト空間における意図再構成生成と連続潜在空間におけるフローマッチング画像生成とを協調的に最適化する統一目的により、推論と生成の両面でのマルチターンRLを可能にする一方、軌道フィルタリング機構は、破損したロールアウトを抑制し、状態汚染下でのトレーニングを安定化させる。
MICE-Benchは,命令追従(IF),コンテンツ整合性(CC),セッションの蓄積制約に対するグローバルな認識(GA)のための自動メトリクスを備えた,マルチターンインコンテキスト編集のための大規模ベンチマークである。
実験により,Edit-R2はテキスト中のマルチターン編集を大幅に改善し,強力なベースラインと比較して競争性能が向上することが示された。
関連論文リスト
- Multimodal Large Language Models for Multi-Subject In-Context Image Generation [56.20395856287325]
音楽は、textbfMUlti-textbfSubject textbfIn-textbfContextイメージ生成用に特別に設計された最初のMLLMである。
我々は,視覚連鎖機構による多目的意味関係の理解を深める。
訓練中に複雑な被写体画像を取り込むことで,連鎖推論におけるモデルの能力を向上させる。
論文 参考訳(メタデータ) (2026-04-08T15:37:42Z) - ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion [16.28499377328499]
ITOは2つの相乗的メカニズムによる制限に対処するフレームワークである。
ITOは、分類、検索、マルチモーダルベンチマークにおいて、強いベースラインを一貫して上回ることを示す。
解析の結果,複数のアライメントが識別力を駆動するのに対して,トレーニング時核融合は重要な構造正則化器として機能することがわかった。
論文 参考訳(メタデータ) (2026-03-03T09:08:53Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - CycleVAR: Repurposing Autoregressive Model for Unsupervised One-Step Image Translation [9.628074306577851]
現在の条件付き自己回帰画像生成手法は有望な結果を示しているが、実際の教師なし画像翻訳領域では、その可能性はほとんど解明されていない。
臨界制限は、伝統的なベクトル量子化に基づくフレームワークに固有の離散量子化に由来する。
我々は,連続確率混合プロセスとしてコードブックの選択を再構成する新しい手法であるSoftmax Relaxed Quantizationを提案する。
論文 参考訳(メタデータ) (2025-06-29T17:43:04Z) - DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing [73.12011187146481]
Diffusionモデル内のインバージョンは、実または生成された画像の潜時雑音表現を復元することを目的としている。
ほとんどの反転アプローチは、復元精度と編集の柔軟性の間の本質的にのトレードオフに悩まされている。
本稿ではDCI(Dual-Conditional Inversion)について紹介する。
論文 参考訳(メタデータ) (2025-06-03T07:46:44Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。