論文の概要: Region-Constrained Group Relative Policy Optimization for Flow-Based Image Editing
- arxiv url: http://arxiv.org/abs/2604.09386v1
- Date: Fri, 10 Apr 2026 14:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.918043
- Title: Region-Constrained Group Relative Policy Optimization for Flow-Based Image Editing
- Title(参考訳): フローベース画像編集のための領域制約群相対ポリシー最適化
- Authors: Zhuohan Ouyang, Zhe Qian, Wenhuo Cui, Chaoqun Wang,
- Abstract要約: 本稿では,領域制約付きGRPOポストトレーニングフレームワークであるRC-GRPO-Editingを提案する。
バックグラウンド誘起ニュアンス分散を抑制して、よりクリーンなローカライズされたクレジット割り当てを可能にし、地域命令の順守を改善し、非ターゲットコンテンツを保存する。
CompBenchの実験では、編集領域の命令順守と非ターゲット保存が一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 2.096755686662369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-guided image editing requires balancing target modification with non-target preservation. Recently, flow-based models have emerged as a strong and increasingly adopted backbone for instruction-guided image editing, thanks to their high fidelity and efficient deterministic ODE sampling. Building on this foundation, GRPO-based reward-driven post-training has been explored to directly optimize editing-specific rewards, improving instruction following and editing consistency. However, existing methods often suffer from noisy credit assignment: global exploration also perturbs non-target regions, inflating within-group reward variance and yielding noisy GRPO advantages. To address this, we propose RC-GRPO-Editing, a region-constrained GRPO post-training framework for flow-based image editing under deterministic ODE sampling. It suppresses background-induced nuisance variance to enable cleaner localized credit assignment, improving editing region instruction adherence while preserving non-target content. Concretely, we localize exploration via region-decoupled initial noise perturbations to reduce background-induced reward variance and stabilize GRPO advantages, and introduce an attention concentration reward that aligns cross-attention with the intended editing region throughout the rollout, reducing unintended changes in non-target regions. Experiments on CompBench show consistent improvements in editing region instruction adherence and non-target preservation.
- Abstract(参考訳): インストラクション誘導画像編集は、標的修正と非目標保存のバランスをとる必要がある。
近年、フローベースモデルは、高い忠実度と効率的な決定論的ODEサンプリングのおかげで、命令誘導画像編集のバックボーンとして強く採用されつつある。
この基盤の上に構築されたGRPOベースの報酬駆動後トレーニングは、編集固有の報酬を直接最適化し、指示追従を改善し、一貫性を編集する。
しかし、既存の手法は、しばしばノイズの多い信用割り当てに悩まされる: グローバルな探索は、非ターゲット領域を摂動させ、グループ内の報酬分散を膨らませ、ノイズの多いGRPOの利点をもたらす。
そこで本研究では,領域制約付きGRPOポストトレーニングフレームワークであるRC-GRPO-Editingを提案する。
バックグラウンド誘起ニュアンス分散を抑制して、よりクリーンなローカライズされたクレジット割り当てを可能にし、非ターゲットコンテンツを保持しながら、領域命令の順守を改善する。
具体的には、地域分離初期ノイズ摂動による探索を局所化し、背景要因による報酬分散を低減し、GRPOの利点を安定させるとともに、ロールアウト全体を通して意図した編集領域との相互依存を一致させる注意集中報酬を導入し、非ターゲット領域における意図しない変化を低減させる。
CompBenchの実験では、編集領域の命令順守と非ターゲット保存が一貫した改善が見られた。
関連論文リスト
- RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details [41.48256151708512]
本稿では,領域固有の画像の精細化を専用の問題設定として紹介する。
ゴールは、細かな細部を復元し、編集されていないすべてのピクセルを厳格に調整することだ。
既存の命令駆動編集モデルでは、粗い粒度のセマンティック編集が強調されている。
論文 参考訳(メタデータ) (2026-04-08T09:32:15Z) - Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation [6.826122099204317]
低密度領域における拡散過程を安定化させるために, 適応補助プロンプトブレンディング (AAPB) を導入する。
AAPBは、まれな概念生成におけるセマンティックサポートと、画像編集における構造的サポートを提供する。
RareBenchとFlowEditのデータセットに一貫した改善を実証的に示す。
論文 参考訳(メタデータ) (2026-03-19T17:12:03Z) - A Turn Toward Better Alignment: Few-Shot Generative Adaptation with Equivariant Feature Rotation [67.2019317630466]
少ない撮影画像生成は、ごく少数の訓練画像を用いて、ソース生成モデルをターゲット領域に効果的に適応することを目的としている。
Equivariant Feature Rotation (EFR) は、ソースドメインとターゲットドメインを2つの相補的なレベルで整列させる新しい適応戦略である。
本手法は,対象領域内の生成性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-12-24T13:48:22Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control [52.87568958372421]
Follow-Your-Shapeは、トレーニング不要でマスクなしのフレームワークで、オブジェクト形状の正確かつ制御可能な編集をサポートする。
インバージョンとデノナイジングパスのトークン単位の速度差を比較することで,TDM(Torjectory Divergence Map)を算出する。
本手法は、特に大規模な形状変更を必要とするタスクにおいて、優れた編集性と視覚的忠実性を実現する。
論文 参考訳(メタデータ) (2025-08-11T16:10:00Z) - LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。