論文の概要: FinPercep-RM: A Fine-grained Reward Model and Co-evolutionary Curriculum for RL-based Real-world Super-Resolution
- arxiv url: http://arxiv.org/abs/2512.22647v1
- Date: Sat, 27 Dec 2025 16:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.157784
- Title: FinPercep-RM: A Fine-grained Reward Model and Co-evolutionary Curriculum for RL-based Real-world Super-Resolution
- Title(参考訳): FinPercep-RM:RLに基づく実世界の超解法のための微粒リワードモデルと共進化カリキュラム
- Authors: Yidi Liu, Zihao Fan, Jie Huang, Jie Xiao, Dong Li, Wenlong Zhang, Lei Bai, Xueyang Fu, Zheng-Jun Zha,
- Abstract要約: 人間のフィードバックによる強化学習は、人間の好みを調整する報酬モデルによって導かれる画像生成分野で有効であることが証明されている。
本稿では, アンコーダ・デコーダアーキテクチャに基づく細粒度パーセプ・リワードモデル(FinPercep-RM)を提案する。
グローバルな品質スコアを提供する一方で、局所的な欠陥を空間的に局所化し定量化する知覚的劣化マップも生成する。
- 参考スコア(独自算出の注目度): 87.57784204422218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Human Feedback (RLHF) has proven effective in image generation field guided by reward models to align human preferences. Motivated by this, adapting RLHF for Image Super-Resolution (ISR) tasks has shown promise in optimizing perceptual quality with Image Quality Assessment (IQA) model as reward models. However, the traditional IQA model usually output a single global score, which are exceptionally insensitive to local and fine-grained distortions. This insensitivity allows ISR models to produce perceptually undesirable artifacts that yield spurious high scores, misaligning optimization objectives with perceptual quality and results in reward hacking. To address this, we propose a Fine-grained Perceptual Reward Model (FinPercep-RM) based on an Encoder-Decoder architecture. While providing a global quality score, it also generates a Perceptual Degradation Map that spatially localizes and quantifies local defects. We specifically introduce the FGR-30k dataset to train this model, consisting of diverse and subtle distortions from real-world super-resolution models. Despite the success of the FinPercep-RM model, its complexity introduces significant challenges in generator policy learning, leading to training instability. To address this, we propose a Co-evolutionary Curriculum Learning (CCL) mechanism, where both the reward model and the ISR model undergo synchronized curricula. The reward model progressively increases in complexity, while the ISR model starts with a simpler global reward for rapid convergence, gradually transitioning to the more complex model outputs. This easy-to-hard strategy enables stable training while suppressing reward hacking. Experiments validates the effectiveness of our method across ISR models in both global quality and local realism on RLHF methods.
- Abstract(参考訳): Reinforcement Learning with Human Feedback (RLHF) は、人間の好みを調整する報酬モデルによって導かれる画像生成に有効であることが証明されている。
これにより、画像超解法(ISR)タスクにRLHFを適用することで、画像品質評価(IQA)モデルを報酬モデルとして知覚品質を最適化する可能性が示された。
しかし、従来のIQAモデルは1つのグローバルスコアを出力するが、これは局所的および微細な歪みに非常に敏感である。
この不感度により、ISRモデルは知覚的に望ましくないアーティファクトを生成でき、それによって刺激的な高いスコアが得られ、最適化目標を知覚品質で誤調整し、報酬のハッキングをもたらす。
そこで本研究では,Encoder-Decoderアーキテクチャに基づく微細な知覚逆モデル(FinPercep-RM)を提案する。
グローバルな品質スコアを提供する一方で、局所的な欠陥を空間的に局所化し定量化する知覚的劣化マップも生成する。
具体的には、実世界の超解像モデルから多様で微妙な歪みからなるFGR-30kデータセットを導入し、このモデルをトレーニングする。
FinPercep-RMモデルの成功にもかかわらず、その複雑さはジェネレータポリシー学習において大きな課題をもたらし、トレーニングの不安定性をもたらす。
そこで我々は,共進化型カリキュラム学習(CCL)機構を提案する。
報酬モデルは徐々に複雑さを増し、ISRモデルは迅速な収束のためにより単純なグローバル報酬から始まり、徐々により複雑なモデル出力へと移行する。
この容易でハードな戦略は、報酬ハッキングを抑えながら安定したトレーニングを可能にする。
実験により,RLHF法における大域的品質と局所現実性の両方において,ISRモデルを用いた手法の有効性が検証された。
関連論文リスト
- Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward [93.04811239892852]
強化学習(Reinforcement Learning, RL)は近年, 拡散モデルに組み入れられている。
本稿では,拡散型修復モデルにRLを効果的に組み込む方法について検討する。
論文 参考訳(メタデータ) (2025-11-03T14:57:57Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。