論文の概要: IRPO: Boosting Image Restoration via Post-training GRPO
- arxiv url: http://arxiv.org/abs/2512.00814v1
- Date: Sun, 30 Nov 2025 09:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.433486
- Title: IRPO: Boosting Image Restoration via Post-training GRPO
- Title(参考訳): IRPO:ポストトレーニングGRPOによる画像復元
- Authors: Haoxuan Xu. Yi Liu, Boyuan Jiang, Jinlong Peng, Donghao Luo, Xiaobin Hu, Shuicheng Yan, Haoang Li,
- Abstract要約: 我々は低レベルのGRPOベースのポストトレーニングパラダイムIRPOを提案する。
まず,低レベルのポストトレーニングパラダイムのデータ定式化原理について検討する。
次に、客観的精度と人間の知覚的嗜好のバランスをとる報酬レベル基準をモデル化する。
- 参考スコア(独自算出の注目度): 58.505589312830615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in post-training paradigms have achieved remarkable success in high-level generation tasks, yet their potential for low-level vision remains rarely explored. Existing image restoration (IR) methods rely on pixel-level hard-fitting to ground-truth images, struggling with over-smoothing and poor generalization. To address these limitations, we propose IRPO, a low-level GRPO-based post-training paradigm that systematically explores both data formulation and reward modeling. We first explore a data formulation principle for low-level post-training paradigm, in which selecting underperforming samples from the pre-training stage yields optimal performance and improved efficiency. Furthermore, we model a reward-level criteria system that balances objective accuracy and human perceptual preference through three complementary components: a General Reward for structural fidelity, an Expert Reward leveraging Qwen-VL for perceptual alignment, and a Restoration Reward for task-specific low-level quality. Comprehensive experiments on six in-domain and five out-of-domain (OOD) low-level benchmarks demonstrate that IRPO achieves state-of-the-art results across diverse degradation types, surpassing the AdaIR baseline by 0.83 dB on in-domain tasks and 3.43 dB on OOD settings. Our code can be shown in https://github.com/HaoxuanXU1024/IRPO.
- Abstract(参考訳): ポストトレーニングのパラダイムの最近の進歩は、ハイレベルな生成タスクにおいて顕著な成功を収めてきたが、低レベルなビジョンの可能性を探求することはめったにない。
既存の画像復元法(IR)は、ピクセルレベルのハードフィットから地平線画像に頼り、過度な滑らかさと一般化に苦慮している。
これらの制約に対処するために、データ定式化と報酬モデリングの両方を体系的に探求する低レベルGRPOベースのポストトレーニングパラダイムIRPOを提案する。
まず,低レベルのポストトレーニングパラダイムのデータ定式化の原理について検討し,事前学習段階から低い性能のサンプルを選択することで,最適性能と効率の向上を実現した。
さらに, 主観的精度と人間の知覚的嗜好のバランスを, 構造的忠実度に対する一般リワード, 知覚的アライメントにQwen-VLを活用するエキスパートリワード, タスク固有の低レベル品質の回復リワードという3つの相補的要素によってモデル化する。
6つのドメイン内と5つのオフ・オブ・ドメイン(OOD)の低レベルベンチマークに関する総合的な実験は、IRPOがさまざまな劣化タイプにわたる最先端の結果を達成し、ドメイン内タスクではAdaIRベースラインを0.83dB、OOD設定では3.43dBを超えていることを示している。
私たちのコードはhttps://github.com/HaoxuanXU1024/IRPOで表示できます。
関連論文リスト
- LRPO: Enhancing Blind Face Restoration through Online Reinforcement Learning [54.51101908523586]
Blind Face Restoration (BFR)は、その大規模なソリューション空間を探索する上で、固有の課題に直面している。
本稿では,オンライン強化学習(RL)をBFRタスクに適用した最初のLRPO(Likelihood-Regularized Policy Optimization)フレームワークを提案する。
提案するLRPOは,ベースライン法よりも顔の復元精度が向上し,最先端の性能が向上する。
論文 参考訳(メタデータ) (2025-09-27T14:42:29Z) - BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z) - NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.040511832864503]
Composed Image Retrieval (CIR)は、マルチモーダルクエリでターゲット画像を取得することを目的とした課題である。
PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
最初の段階では、純画像データから擬似三重項を生成するために、注意型マスキングとキャプションに基づく擬似三重項生成法を提案する。
第2段階では,3重項に基づく挑戦的CIR微調整法を提案し,擬似修正テキストに基づくサンプルの挑戦的スコア推定戦略を設計する。
論文 参考訳(メタデータ) (2024-07-08T14:53:07Z) - Hyperspectral Benchmark: Bridging the Gap between HSI Applications
through Comprehensive Dataset and Pretraining [11.935879491267634]
ハイパースペクトルイメージング (HSI) は、様々な応用の非破壊空間分光技術として機能する。
繰り返し発生する課題は、ターゲットデータセットの限られたサイズであり、徹底的なアーキテクチャ検索を妨げる。
本研究は、3つの顕著な異なるHSIアプリケーションを含む革新的なベンチマークデータセットを紹介する。
論文 参考訳(メタデータ) (2023-09-20T08:08:34Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。