論文の概要: CoCoEdit: Content-Consistent Image Editing via Region Regularized Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.14068v1
- Date: Sun, 15 Feb 2026 09:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.636083
- Title: CoCoEdit: Content-Consistent Image Editing via Region Regularized Reinforcement Learning
- Title(参考訳): CoCoEdit: 領域正規化強化学習によるコンテンツ一貫性の画像編集
- Authors: Yuhui Wu, Chenxi Xie, Ruibin Li, Liyi Chen, Qiaosi Yi, Lei Zhang,
- Abstract要約: コンテンツ一貫性編集のためのポストトレーニングフレームワーク(CoCoEdit)を提案する。
まず、改良された命令とマスクによる既存の編集データセットを拡張し、そこから40Kの多様性と高品質なサンプルをトレーニングセットとしてキュレートする。
次に、MLLMに基づく報酬を補完する画素レベルの類似性報酬を導入し、編集過程における品質とコンテンツ整合性の両方をモデルが保証する。
- 参考スコア(独自算出の注目度): 15.375069717719157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image editing has achieved impressive results with the development of large-scale generative models. However, existing models mainly focus on the editing effects of intended objects and regions, often leading to unwanted changes in unintended regions. We present a post-training framework for Content-Consistent Editing (CoCoEdit) via region regularized reinforcement learning. We first augment existing editing datasets with refined instructions and masks, from which 40K diverse and high quality samples are curated as training set. We then introduce a pixel-level similarity reward to complement MLLM-based rewards, enabling models to ensure both editing quality and content consistency during the editing process. To overcome the spatial-agnostic nature of the rewards, we propose a region-based regularizer, aiming to preserve non-edited regions for high-reward samples while encouraging editing effects for low-reward samples. For evaluation, we annotate editing masks for GEdit-Bench and ImgEdit-Bench, introducing pixel-level similarity metrics to measure content consistency and editing quality. Applying CoCoEdit to Qwen-Image-Edit and FLUX-Kontext, we achieve not only competitive editing scores with state-of-the-art models, but also significantly better content consistency, measured by PSNR/SSIM metrics and human subjective ratings.
- Abstract(参考訳): 画像編集は大規模な生成モデルの開発で驚くべき成果を上げている。
しかし、既存のモデルは、主に意図しない対象や領域の編集効果に焦点を当てており、しばしば意図しない領域における望ましくない変更につながっている。
本稿では,地域正規化強化学習によるコンテンツ一貫性編集(CoCoEdit)のポストトレーニングフレームワークを提案する。
まず、改良された命令とマスクによる既存の編集データセットを拡張し、そこから40Kの多様性と高品質なサンプルをトレーニングセットとしてキュレートする。
次に,MLLMに基づく報酬を補完する画素レベルの類似性報酬を導入する。
報酬の空間的非依存性を克服するために,低報酬サンプルに対する編集効果を奨励しつつ,高報酬サンプルに対する非編集領域の保存を目的とした地域ベースレギュレータを提案する。
評価のために,GEdit-Bench と ImgEdit-Bench の編集マスクをアノテートし,コンテントの一貫性と編集品質を測定するために画素レベルの類似度指標を導入した。
CoCoEdit を Qwen-Image-Edit と FLUX-Kontext に適用することで、最先端のモデルと競合する編集スコアを得るだけでなく、PSNR/SSIM 測定値と人間の主観的評価値によって測定されたコンテンツの一貫性も大幅に向上する。
関連論文リスト
- SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing [84.7089707244905]
Masked Generative Transformers (MGT) は、編集プロセス中に非関連領域を保存するために固有の能力を持つローカライズされたデコードパラダイムを示す。
本稿では,MGT ベースの画像編集フレームワーク EditMGT を紹介する。
EditMGTのクロスアテンションマップは、編集関連領域をローカライズするための情報的ローカライズ信号を提供する。
また、低アテンション領域におけるトークンのフリップを制限する領域ホールドサンプリングを導入し、急激な編集を抑える。
論文 参考訳(メタデータ) (2025-12-12T16:51:19Z) - MoEdit: On Learning Quantity Perception for Multi-object Image Editing [30.569177864762167]
MoEditは補助フリーのマルチオブジェクト画像編集フレームワークである。
本稿では、各オブジェクト属性の区別と分離性を保証するFeComモジュールについて述べる。
また,Quantity Attention (QTTN)モジュールも提案する。
論文 参考訳(メタデータ) (2025-03-13T07:13:54Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。