論文の概要: SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2602.07458v2
- Date: Tue, 10 Feb 2026 19:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:19.944498
- Title: SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning
- Title(参考訳): SpaceReward: 空間推論による画像編集のためのオンラインRLにおける知覚ギャップのブリッジ
- Authors: Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang,
- Abstract要約: 本研究では,空間的推論による正確な検証を行う報酬モデルを提案する。
予測された編集領域に推論を固定することにより、SpatialRewardはピクセルレベルの証拠に意味判断を基礎付ける。
我々のモデルはMMRB2とEditReward-Benchの最先端性能を実現し,提案したMultiEditReward-Benchのプロプライエタリ評価器よりも優れている。
- 参考スコア(独自算出の注目度): 22.77769800361136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Reinforcement Learning (RL) offers a promising avenue for complex image editing but is currently constrained by the scarcity of reliable and fine-grained reward signals. Existing evaluators frequently struggle with a critical perception gap we term "Attention Collapse," where models neglect cross-image comparisons and fail to capture fine-grained details, resulting in inaccurate perception and miscalibrated scores. To address these limitations, we propose SpatialReward, a reward model that enforces precise verification via explicit spatial reasoning. By anchoring reasoning to predicted edit regions, SpatialReward grounds semantic judgments in pixel-level evidence, significantly enhancing evaluative accuracy. Trained on a curated 260k spatial-aware dataset, our model achieves state-of-the-art performance on MMRB2 and EditReward-Bench, and outperforms proprietary evaluators on our proposed MultiEditReward-Bench. Furthermore, SpatialReward serves as a robust signal in online RL, boosting OmniGen2 by +0.90 on GEdit-Bench--surpassing the leading discriminative model and doubling the gain of GPT-4.1 (+0.45). These results demonstrate that spatial reasoning is essential for unlocking effective alignment in image editing.
- Abstract(参考訳): オンライン強化学習(RL)は複雑な画像編集のための有望な道を提供するが、現在は信頼性と微妙な報酬信号の不足に制約されている。
既存の評価者は「注意崩壊(Attention Collapse)」という重要な知覚ギャップにしばしば苦しむが、モデルでは画像間の比較を無視し、きめ細かい詳細を捉えることができず、不正確な知覚と誤校正スコアをもたらす。
これらの制約に対処するため,空間的推論による正確な検証を行う報奨モデルであるSpatialRewardを提案する。
予測された編集領域に推論を固定することにより、SpatialRewardは画素レベルの証拠に意味的判断を定め、評価精度を著しく向上させる。
MMRB2 と EditReward-Bench を用いた260k の空間認識データセットを用いて学習し,提案した MultiEditReward-Bench のプロプライエタリな評価器よりも優れた性能を示す。
さらに、SpatialRewardはオンラインRLのロバストなシグナルとして機能し、GEdit-BenchでOmniGen2を+0.90増加させ、主要な差別モデルを克服し、GPT-4.1(+0.45)のゲインを2倍にする。
これらの結果から,画像編集における効果的なアライメントの解除には空間的推論が不可欠であることが示唆された。
関連論文リスト
- Multi-Scale Local Speculative Decoding for Image Generation [10.239314110594249]
マルチスケールローカル投機復号(MuLo-SD)を導入する。
MuLo-SDは、多重解像度のドラフトと空間情報による検証を組み合わせることで、AR画像生成を高速化する。
我々は MuLo-SD が $mathbf1.7times$ までの大幅な高速化を実現することを示した。
論文 参考訳(メタデータ) (2026-01-08T17:39:35Z) - ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing [33.888289858260706]
画像編集の質を向上させるために,強化学習(RL)について検討した。
RL は,(1) ノイズ除去に限定した推論探索,(2) バイアスド報酬融合,(3) 不安定な VLM ベースの命令報酬の3つの主要な課題に直面している。
画像合成から視覚的推論を分離する推論中心のRLフレームワークであるThinkRL-Editを提案する。
論文 参考訳(メタデータ) (2026-01-06T23:43:00Z) - EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling [71.8265422228785]
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:28:24Z) - Active Adversarial Noise Suppression for Image Forgery Localization [56.98050814363447]
本稿では、敵騒音の攻撃効果を抑制するために、防御的摂動を発生させる敵騒音抑制モジュール(ANSM)を提案する。
我々の知る限りでは、画像フォージェリローカライゼーションタスクにおける敵対的防御の報告としてはこれが初めてである。
論文 参考訳(メタデータ) (2025-06-15T14:53:27Z) - Towards Generalized Range-View LiDAR Segmentation in Adverse Weather [65.22588361803942]
我々は、厳しい天候下でのLiDARセグメンテーションの一般化に影響を及ぼす固有の課題を特定し、分析する。
既存のモデルのコアアーキテクチャを変更することなく、ロバスト性を高めるモジュール式で軽量なフレームワークを提案する。
提案手法は,推定オーバーヘッドを最小限に抑え,悪天候への一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-06-10T16:48:27Z) - High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。
低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。
高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:23:48Z) - MASA-SR: Matching Acceleration and Spatial Adaptation for
Reference-Based Image Super-Resolution [74.24676600271253]
本稿では、RefSRのためのMASAネットワークを提案し、これらの問題に対処するために2つの新しいモジュールを設計する。
提案したMatch & extract Moduleは、粗大な対応マッチング方式により計算コストを大幅に削減する。
空間適応モジュールは、LR画像とRef画像の分布の差を学習し、Ref特徴の分布を空間適応的にLR特徴の分布に再マップする。
論文 参考訳(メタデータ) (2021-06-04T07:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。