論文の概要: LRPO: Enhancing Blind Face Restoration through Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23339v1
- Date: Sat, 27 Sep 2025 14:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.172378
- Title: LRPO: Enhancing Blind Face Restoration through Online Reinforcement Learning
- Title(参考訳): LRPO:オンライン強化学習によるブラインド顔復元の強化
- Authors: Bin Wu, Yahui Liu, Chi Zhang, Yao Zhao, Wei Wang,
- Abstract要約: Blind Face Restoration (BFR)は、その大規模なソリューション空間を探索する上で、固有の課題に直面している。
本稿では,オンライン強化学習(RL)をBFRタスクに適用した最初のLRPO(Likelihood-Regularized Policy Optimization)フレームワークを提案する。
提案するLRPOは,ベースライン法よりも顔の復元精度が向上し,最先端の性能が向上する。
- 参考スコア(独自算出の注目度): 54.51101908523586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Blind Face Restoration (BFR) encounters inherent challenges in exploring its large solution space, leading to common artifacts like missing details and identity ambiguity in the restored images. To tackle these challenges, we propose a Likelihood-Regularized Policy Optimization (LRPO) framework, the first to apply online reinforcement learning (RL) to the BFR task. LRPO leverages rewards from sampled candidates to refine the policy network, increasing the likelihood of high-quality outputs while improving restoration performance on low-quality inputs. However, directly applying RL to BFR creates incompatibility issues, producing restoration results that deviate significantly from the ground truth. To balance perceptual quality and fidelity, we propose three key strategies: 1) a composite reward function tailored for face restoration assessment, 2) ground-truth guided likelihood regularization, and 3) noise-level advantage assignment. Extensive experiments demonstrate that our proposed LRPO significantly improves the face restoration quality over baseline methods and achieves state-of-the-art performance.
- Abstract(参考訳): Blind Face Restoration (BFR)は、その大規模なソリューション空間を探索する上で、固有の課題に直面している。
このような課題に対処するため,我々は,オンライン強化学習(RL)をBFRタスクに適用した最初のLRPO(Likelihood-Regularized Policy Optimization)フレームワークを提案する。
LRPOは、サンプル候補の報酬を利用してポリシーネットワークを洗練し、高品質な出力の可能性を高めつつ、低品質な入力の復元性能を改善している。
しかし、直接RLをBFRに適用すると不整合性の問題が発生し、根本的真理からかなり逸脱する修復結果が生じる。
知覚品質と忠実性のバランスをとるために,我々は3つの重要な戦略を提案する。
1)顔の修復評価に適した複合報酬機能。
2)地道ガイドによる可能性正規化,及び
3)ノイズレベルの有利な割り当て。
広汎な実験により,提案したLRPOはベースライン法よりも顔の復元精度を著しく向上し,最先端性能を実現していることが示された。
関連論文リスト
- Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter [52.93785843453579]
低品質(LQ)画像からのブラインド顔復元は、高忠実度画像再構成と顔認証の保存を必要とする課題である。
LAFRは,LQ画像の潜時分布とHQ画像の潜時分布を一致させる,新しいコードブックベースの潜時空間アダプタである。
FFHQデータセットのわずか0.9%での拡散の軽量な微調整は、最先端の手法に匹敵する結果を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2025-05-29T14:11:16Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Implicit Subspace Prior Learning for Dual-Blind Face Restoration [66.67059961379923]
新しい暗黙的サブスペース事前学習(ISPL)フレームワークが、二重盲顔復元の一般的な解決策として提案されている。
実験の結果,既存の最先端手法に対するISPLの認識歪改善が顕著であった。
論文 参考訳(メタデータ) (2020-10-12T08:04:24Z) - HiFaceGAN: Face Renovation via Collaborative Suppression and
Replenishment [63.333407973913374]
フェース・リノベーション(FR)は意味誘導型生成問題である。
HiFaceGANは、複数のネストされたCSRユニットを含む多段階フレームワークである。
合成画像と実顔画像の両方の実験により,HiFaceGANの優れた性能が確認された。
論文 参考訳(メタデータ) (2020-05-11T11:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。