論文の概要: RealSR-R1: Reinforcement Learning for Real-World Image Super-Resolution with Vision-Language Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2506.16796v2
- Date: Mon, 23 Jun 2025 10:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 12:48:19.155912
- Title: RealSR-R1: Reinforcement Learning for Real-World Image Super-Resolution with Vision-Language Chain-of-Thought
- Title(参考訳): RealSR-R1:Vision-Language Chain-of-Thoughtを用いた実世界の超解像の強化学習
- Authors: Junbo Qiao, Miaomiao Cai, Wei Li, Yutong Liu, Xudong Huang, Gaoqi He, Jiao Xie, Jie Hu, Xinghao Chen, Shaohui Lin,
- Abstract要約: リアルワールド・イメージ・スーパーリゾリューションは、画像修復において最も難しい課題の1つです。
既存の手法は、劣化した画像の内容の正確な理解に苦慮している。
本稿では、RealSRモデルに理解と推論機能を持たせるRealSR-R1を提案する。
- 参考スコア(独自算出の注目度): 16.51892070685903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-World Image Super-Resolution is one of the most challenging task in image restoration. However, existing methods struggle with an accurate understanding of degraded image content, leading to reconstructed results that are both low-fidelity and unnatural. We present RealSR-R1 in this work, which empowers the RealSR models with understanding and reasoning capabilities. Inspired by the success of Chain of Thought (CoT) in large language models (LLMs), we simulate the human process of handling degraded images and propose the VLCoT framework, which integrates vision and language reasoning. The framework aims to precisely restore image details by progressively generating more comprehensive text and higher-resolution images. To overcome the challenge of traditional supervised learning CoT failing to generalize to real-world scenarios, we introduce, for the first time, Group Relative Policy Optimization (GRPO) into the Real-World Image Super-Resolution task. We propose VLCoT-GRPO as a solution, which designs four reward functions: (1) Format reward, used to standardize the CoT process; (2) Degradation reward, to incentivize accurate degradation estimation; (3) Understanding reward, to ensure the accuracy of the generated content; and (4) Generation reward, where we propose using a visual expert model to evaluate the quality of generated images, encouraging the model to generate more realistic images. Extensive experiments demonstrate that our proposed RealSR-R1 can generate realistic details and accurately understand image content, particularly in semantically rich scenes or images with severe degradation.
- Abstract(参考訳): リアルワールド・イメージ・スーパーリゾリューションは、画像修復において最も難しい課題の1つです。
しかし、既存の手法は劣化した画像の内容の正確な理解に苦慮し、低忠実度と不自然な結果の両方を再構成する。
本稿では,RealSR-R1の理解と推論機能を備えたRealSRモデルについて述べる。
大規模言語モデル(LLM)におけるChain of Thought(CoT)の成功に触発されて、劣化した画像を扱う人間のプロセスをシミュレートし、視覚と言語推論を統合するVLCoTフレームワークを提案する。
このフレームワークは、より包括的なテキストと高解像度の画像を生成することによって、画像の詳細を正確に復元することを目的としている。
従来の教師付き学習CoTが現実のシナリオに一般化できないという課題を克服するため,グループ相対政策最適化(GRPO)を実世界の超解法タスクに導入した。
提案するソリューションは,(1)CoTプロセスの標準化に使用される報酬の形式,(2)正確な劣化推定をインセンティブ化する報奨,(3)生成したコンテンツの精度を保証する報奨の理解,(4)生成した画像の品質を評価するために視覚的エキスパートモデルを用いることで,より現実的な画像を生成するようモデルに促す,という4つの報奨関数を設計する。
大規模な実験により,提案したRealSR-R1は,特に意味に富んだシーンや画像において,現実的な詳細を生成でき,画像内容の正確な理解が可能であることが示された。
関連論文リスト
- Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。
PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。
実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文 参考訳(メタデータ) (2025-03-14T04:33:59Z) - Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Low-Res Leads the Way: Improving Generalization for Super-Resolution by
Self-Supervised Learning [45.13580581290495]
本研究は,SRモデルの現実の画像への適応性を高めるために,新しい"Low-Res Leads the Way"(LWay)トレーニングフレームワークを導入する。
提案手法では,低分解能(LR)再構成ネットワークを用いて,LR画像から劣化埋め込みを抽出し,LR再構成のための超解出力とマージする。
私たちのトレーニング体制は普遍的に互換性があり、ネットワークアーキテクチャの変更は不要です。
論文 参考訳(メタデータ) (2024-03-05T02:29:18Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Learning Many-to-Many Mapping for Unpaired Real-World Image
Super-resolution and Downscaling [60.80788144261183]
実世界のLR画像とHR画像の双方向多対多マッピングを教師なしで同時に学習するSDFlowと呼ばれる画像ダウンスケーリングとSRモデルを提案する。
実世界の画像SRデータセットによる実験結果から,SDFlowは定量的かつ定性的に,多様な現実的なLRとSRの画像を生成可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-08T01:48:34Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - Learning Structral coherence Via Generative Adversarial Network for
Single Image Super-Resolution [13.803141755183827]
近年,GAN(Generative Adversarial Network)に基づくSISR法により,全体の現実的SR画像が得られた。
SRプロセスにおける高分解能勾配図の復元により構造情報を保存するため, 発電機に勾配分岐を導入する。
さらに、U-netベースの判別器を用いて、画像全体と画素ごとの詳細な認証の両方について検討する。
論文 参考訳(メタデータ) (2021-01-25T15:26:23Z) - Component Divide-and-Conquer for Real-World Image Super-Resolution [143.24770911629807]
本稿では,DRealSR,DRealSR,および分割コンカレント・コンカレント・スーパー・リゾリューション・ネットワークの大規模画像スーパー・リゾリューション・データセットを提案する。
DRealSRは、さまざまな現実世界の劣化プロセスを備えた新しいSRベンチマークを確立する。
SR に対して Component Divide-and-Conquer (CDC) モデルと Gradient-Weighted (GW) 損失を提案する。
論文 参考訳(メタデータ) (2020-08-05T04:26:26Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。