論文の概要: Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward
- arxiv url: http://arxiv.org/abs/2511.01645v1
- Date: Mon, 03 Nov 2025 14:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.304526
- Title: Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward
- Title(参考訳): IQAリワードを用いた難易度適応型強化学習による拡散型復元モデルの強化
- Authors: Xiaogang Xu, Ruihang Chu, Jian Wang, Kun Zhou, Wenjie Shu, Harry Yang, Ser-Nam Lim, Hao Chen, Liang Lin,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は近年, 拡散モデルに組み入れられている。
本稿では,拡散型修復モデルにRLを効果的に組み込む方法について検討する。
- 参考スコア(独自算出の注目度): 93.04811239892852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has recently been incorporated into diffusion models, e.g., tasks such as text-to-image. However, directly applying existing RL methods to diffusion-based image restoration models is suboptimal, as the objective of restoration fundamentally differs from that of pure generation: it places greater emphasis on fidelity. In this paper, we investigate how to effectively integrate RL into diffusion-based restoration models. First, through extensive experiments with various reward functions, we find that an effective reward can be derived from an Image Quality Assessment (IQA) model, instead of intuitive ground-truth-based supervision, which has already been optimized during the Supervised Fine-Tuning (SFT) stage prior to RL. Moreover, our strategy focuses on using RL for challenging samples that are significantly distant from the ground truth, and our RL approach is innovatively implemented using MLLM-based IQA models to align distributions with high-quality images initially. As the samples approach the ground truth's distribution, RL is adaptively combined with SFT for more fine-grained alignment. This dynamic process is facilitated through an automatic weighting strategy that adjusts based on the relative difficulty of the training samples. Our strategy is plug-and-play that can be seamlessly applied to diffusion-based restoration models, boosting its performance across various restoration tasks. Extensive experiments across multiple benchmarks demonstrate the effectiveness of our proposed RL framework.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、たとえばテキスト・トゥ・イメージのようなタスクの拡散モデルに最近組み込まれている。
しかし、拡散に基づく画像復元モデルに既存のRL法を直接適用するのは最適ではない。
本稿では,拡散型修復モデルにRLを効果的に組み込む方法について検討する。
まず, 様々な報奨関数を用いた広範囲な実験により, RL 以前の Supervised Fine-Tuning (SFT) 段階で既に最適化されている直感的な地中構造に基づく監視ではなく, 画像品質評価 (IQA) モデルから有効報酬を導出できることを見出した。
さらに,提案手法は,地上の真理からかなり離れたサンプルにRLを用いることに重点を置いており,我々のRLアプローチはMLLMベースのIQAモデルを用いて革新的に実装され,分布を高品質な画像と整合させる。
サンプルが基底真理分布に近づくと、RLはよりきめ細かいアライメントのためにSFTと適応的に結合される。
この動的プロセスは、トレーニングサンプルの相対的難易度に基づいて調整する自動重み付け戦略によって促進される。
我々の戦略はプラグ・アンド・プレイであり、拡散型修復モデルにシームレスに適用でき、様々な修復作業において性能を向上する。
複数のベンチマークで大規模な実験を行い、提案したRLフレームワークの有効性を実証した。
関連論文リスト
- Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。
具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。
実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T05:47:48Z) - Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning [28.111812077758845]
MLLM(Multimodal Large Language Models)は、テキスト参照を持つ単一画像シナリオにおいて、視覚的グラウンド化に優れる。
しかし、複雑なマルチイメージ合成とマルチモーダル命令を含む実世界のアプリケーションを扱う場合、パフォーマンスは劣化する。
我々は、強化学習に基づくポストトレーニング戦略を採用し、マルチイメージグラウンドタスクにおけるMLLMの推論を改善する。
論文 参考訳(メタデータ) (2025-07-01T13:48:57Z) - Normalizing Flows are Capable Models for RL [24.876149287707847]
本稿では,強化学習アルゴリズムにシームレスに統合した単一正規化フローアーキテクチャを提案する。
提案手法はより単純なアルゴリズムに導かれ,模倣学習,オフライン,目標条件付きRL,教師なしRLにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T15:06:22Z) - Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-25T16:15:21Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Sample-efficient Reinforcement Learning Representation Learning with
Curiosity Contrastive Forward Dynamics Model [17.41484483119774]
本稿では、CCFDM(Curiosity Contrastive Forward Dynamics Model)の学習フレームワークを検討し、よりサンプル効率の高い強化学習(RL)を実現する。
CCFDMはフォワードダイナミクスモデル(FDM)を導入し、その深層畳み込みニューラルネットワークベースのイメージエンコーダ(IE)をトレーニングするためのコントラスト学習を実行する
トレーニング中、CFDMはFDM予測誤差に基づいて生成された本質的な報酬を提供し、RLエージェントの好奇性を高めて探索を改善する。
論文 参考訳(メタデータ) (2021-03-15T10:08:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。