論文の概要: RealSR-R1: Reinforcement Learning for Real-World Image Super-Resolution with Vision-Language Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2506.16796v2
- Date: Mon, 23 Jun 2025 10:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 12:48:19.155912
- Title: RealSR-R1: Reinforcement Learning for Real-World Image Super-Resolution with Vision-Language Chain-of-Thought
- Title(参考訳): RealSR-R1:Vision-Language Chain-of-Thoughtを用いた実世界の超解像の強化学習
- Authors: Junbo Qiao, Miaomiao Cai, Wei Li, Yutong Liu, Xudong Huang, Gaoqi He, Jiao Xie, Jie Hu, Xinghao Chen, Shaohui Lin,
- Abstract要約: リアルワールド・イメージ・スーパーリゾリューションは、画像修復において最も難しい課題の1つです。
既存の手法は、劣化した画像の内容の正確な理解に苦慮している。
本稿では、RealSRモデルに理解と推論機能を持たせるRealSR-R1を提案する。
- 参考スコア(独自算出の注目度): 16.51892070685903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-World Image Super-Resolution is one of the most challenging task in image restoration. However, existing methods struggle with an accurate understanding of degraded image content, leading to reconstructed results that are both low-fidelity and unnatural. We present RealSR-R1 in this work, which empowers the RealSR models with understanding and reasoning capabilities. Inspired by the success of Chain of Thought (CoT) in large language models (LLMs), we simulate the human process of handling degraded images and propose the VLCoT framework, which integrates vision and language reasoning. The framework aims to precisely restore image details by progressively generating more comprehensive text and higher-resolution images. To overcome the challenge of traditional supervised learning CoT failing to generalize to real-world scenarios, we introduce, for the first time, Group Relative Policy Optimization (GRPO) into the Real-World Image Super-Resolution task. We propose VLCoT-GRPO as a solution, which designs four reward functions: (1) Format reward, used to standardize the CoT process; (2) Degradation reward, to incentivize accurate degradation estimation; (3) Understanding reward, to ensure the accuracy of the generated content; and (4) Generation reward, where we propose using a visual expert model to evaluate the quality of generated images, encouraging the model to generate more realistic images. Extensive experiments demonstrate that our proposed RealSR-R1 can generate realistic details and accurately understand image content, particularly in semantically rich scenes or images with severe degradation.
- Abstract(参考訳): リアルワールド・イメージ・スーパーリゾリューションは、画像修復において最も難しい課題の1つです。
しかし、既存の手法は劣化した画像の内容の正確な理解に苦慮し、低忠実度と不自然な結果の両方を再構成する。
本稿では,RealSR-R1の理解と推論機能を備えたRealSRモデルについて述べる。
大規模言語モデル(LLM)におけるChain of Thought(CoT)の成功に触発されて、劣化した画像を扱う人間のプロセスをシミュレートし、視覚と言語推論を統合するVLCoTフレームワークを提案する。
このフレームワークは、より包括的なテキストと高解像度の画像を生成することによって、画像の詳細を正確に復元することを目的としている。
従来の教師付き学習CoTが現実のシナリオに一般化できないという課題を克服するため,グループ相対政策最適化(GRPO)を実世界の超解法タスクに導入した。
提案するソリューションは,(1)CoTプロセスの標準化に使用される報酬の形式,(2)正確な劣化推定をインセンティブ化する報奨,(3)生成したコンテンツの精度を保証する報奨の理解,(4)生成した画像の品質を評価するために視覚的エキスパートモデルを用いることで,より現実的な画像を生成するようモデルに促す,という4つの報奨関数を設計する。
大規模な実験により,提案したRealSR-R1は,特に意味に富んだシーンや画像において,現実的な詳細を生成でき,画像内容の正確な理解が可能であることが示された。
関連論文リスト
- Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - Learning Structral coherence Via Generative Adversarial Network for
Single Image Super-Resolution [13.803141755183827]
近年,GAN(Generative Adversarial Network)に基づくSISR法により,全体の現実的SR画像が得られた。
SRプロセスにおける高分解能勾配図の復元により構造情報を保存するため, 発電機に勾配分岐を導入する。
さらに、U-netベースの判別器を用いて、画像全体と画素ごとの詳細な認証の両方について検討する。
論文 参考訳(メタデータ) (2021-01-25T15:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。