論文の概要: RefReward-SR: LR-Conditioned Reward Modeling for Preference-Aligned Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.24198v1
- Date: Wed, 25 Mar 2026 11:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.258512
- Title: RefReward-SR: LR-Conditioned Reward Modeling for Preference-Aligned Super-Resolution
- Title(参考訳): RefReward-SR:LR-Conditioned Reward Modeling for Preference-Aligned Super-Resolution
- Authors: Yushuai Song, Weize Quan, Weining Wang, Jiahui Sun, Jing Liu, Meng Li, Pengbin Yu, Zhentao Chen, Wei Shen, Lunxi Yuan, Dong-ming Yan,
- Abstract要約: RefReward-SRは、RSRの低解像度(LR)参照型報酬モデルである。
LR入力に条件付けされた高分解能(HR)再構成を評価し、LRイメージをセマンティックアンカーとして扱う。
我々の枠組みは人的判断との整合性を大幅に向上させ,意味的整合性を維持する再構成を創出する。
- 参考スコア(独自算出の注目度): 26.50828843718706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative super-resolution (SR) have greatly improved visual realism, yet existing evaluation and optimization frameworks remain misaligned with human perception. Full-Reference and No-Reference metrics often fail to reflect perceptual preference, either penalizing semantically plausible details due to pixel misalignment or favoring visually sharp but inconsistent artifacts. Moreover, most SR methods rely on ground-truth (GT)-dependent distribution matching, which does not necessarily correspond to human judgments. In this work, we propose RefReward-SR, a low-resolution (LR) reference-aware reward model for preference-aligned SR. Instead of relying on GT supervision or NR evaluation, RefReward-SR assesses high-resolution (HR) reconstructions conditioned on their LR inputs, treating the LR image as a semantic anchor. Leveraging the visual-linguistic priors of a Multimodal Large Language Models (MLLM), it evaluates semantic consistency and plausibility in a reasoning-aware manner. To support this paradigm, we construct RefSR-18K, the first large-scale LR-conditioned preference dataset for SR, providing pairwise rankings based on LR-HR consistency and HR naturalness. We fine-tune the MLLM with Group Relative Policy Optimization (GRPO) using LR-conditioned ranking rewards, and further integrate GRPO into SR model training with RefReward-SR as the core reward signal for preference-aligned generation. Extensive experiments show that our framework achieves substantially better alignment with human judgments, producing reconstructions that preserve semantic consistency while enhancing perceptual plausibility and visual naturalness. Code, models, and datasets will be released upon paper acceptance.
- Abstract(参考訳): 生成超解像(SR)の最近の進歩は視覚リアリズムを大幅に改善しているが、既存の評価と最適化の枠組みは人間の知覚と相容れないままである。
フル参照と非参照のメトリクスは、しばしば知覚的嗜好を反映せず、画素の不一致による意味論的に妥当な詳細をペナルティ化するか、視覚的に鋭く、一貫性のないアーティファクトを好む。
さらに、ほとんどのSR手法はGTに依存した分布マッチングに依存しており、必ずしも人間の判断と一致しない。
本研究では,レファレンス対応SRに対する低解像度(LR)参照認識報酬モデルであるRefReward-SRを提案する。
GTの監督やNR評価に頼る代わりに、RefReward-SRはLR入力で条件付けられた高分解能(HR)再構成を評価し、LRイメージをセマンティックアンカーとして扱う。
MLLM(Multimodal Large Language Models)の視覚言語的先行性を利用して、意味的一貫性と妥当性を推論的に評価する。
このパラダイムをサポートするために、SRのための最初の大規模LR条件設定データセットであるRefSR-18Kを構築し、LR-HRの一貫性とHRの自然性に基づくペアランキングを提供する。
我々は、LR条件付きランキング報酬を用いてグループ相対ポリシー最適化(GRPO)を用いてMLLMを微調整し、さらに、GRPOをSRモデルトレーニングに統合し、RefReward-SRを優先整列生成のコア報酬信号とする。
大規模な実験により,本フレームワークは人間の判断との整合性を大幅に向上し,知覚的可視性と視覚的自然性を高めつつ,意味的整合性を維持する再構築が実現された。
コード、モデル、データセットは、論文の受理時にリリースされる。
関連論文リスト
- LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution [21.290660354883595]
優先度に基づく強化学習(RL)は、各LR入力が比較対象のロールアウトグループを生成するため、自然な適合である。
我々は、フローマッチングリアルタイムISRのためのマルチリワードRLフレームワークLucidNFTを提案する。
LucidNFTはフローベースのReal-ISRベースラインを一貫して改善している。
論文 参考訳(メタデータ) (2026-03-06T06:30:34Z) - RASR: Retrieval-Augmented Super Resolution for Practical Reference-based Image Restoration [41.50858324338511]
RefSRは、高品質な参照画像を活用して、テクスチャの忠実さと視覚リアリズムを高めることで、Single Image Super Resolution (SISR)を改善している。
既存のRefSRアプローチは、手動でキュレートされたターゲット参照イメージペアに依存している。
Retrieval-Augmented Super Resolution (RASR) は参照データベースから意味論的に関連する高解像度画像を自動的に抽出する新しい実用的なRefSRパラダイムである。
論文 参考訳(メタデータ) (2025-08-13T03:05:20Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Low-Res Leads the Way: Improving Generalization for Super-Resolution by
Self-Supervised Learning [45.13580581290495]
本研究は,SRモデルの現実の画像への適応性を高めるために,新しい"Low-Res Leads the Way"(LWay)トレーニングフレームワークを導入する。
提案手法では,低分解能(LR)再構成ネットワークを用いて,LR画像から劣化埋め込みを抽出し,LR再構成のための超解出力とマージする。
私たちのトレーニング体制は普遍的に互換性があり、ネットワークアーキテクチャの変更は不要です。
論文 参考訳(メタデータ) (2024-03-05T02:29:18Z) - ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised
Real-world Single Image Super-Resolution [60.90817228730133]
単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした課題である。
近年のアプローチは、単純化されたダウンサンプリング演算子によって劣化したシミュレーションLR画像に基づいて訓練されている。
Invertible Scale-Conditional Function (ICF) を提案する。これは入力画像をスケールし、異なるスケール条件で元の入力を復元する。
論文 参考訳(メタデータ) (2023-07-24T12:42:45Z) - RRSR:Reciprocal Reference-based Image Super-Resolution with Progressive
Feature Alignment and Selection [66.08293086254851]
本稿では,RefSRネットワークの学習を強化するための相互学習フレームワークを提案する。
新たに提案したモジュールは,マルチスケールの特徴空間に参照入力画像をアライメントし,参照認識機能の選択を行う。
我々は,最近のRefSRモデルが相互学習パラダイムによって一貫した改善が可能であることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-08T12:39:35Z) - MASA-SR: Matching Acceleration and Spatial Adaptation for
Reference-Based Image Super-Resolution [74.24676600271253]
本稿では、RefSRのためのMASAネットワークを提案し、これらの問題に対処するために2つの新しいモジュールを設計する。
提案したMatch & extract Moduleは、粗大な対応マッチング方式により計算コストを大幅に削減する。
空間適応モジュールは、LR画像とRef画像の分布の差を学習し、Ref特徴の分布を空間適応的にLR特徴の分布に再マップする。
論文 参考訳(メタデータ) (2021-06-04T07:15:32Z) - Robust Reference-based Super-Resolution via C2-Matching [77.51610726936657]
超解像(Ref-SR)は、最近、高分解能(HR)参照画像を導入して、低分解能(LR)入力画像を強化するための有望なパラダイムとして登場した。
既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。
本稿では,C2-Matchingを提案する。
論文 参考訳(メタデータ) (2021-06-03T16:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。