論文の概要: DP$^2$O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2510.18851v1
- Date: Tue, 21 Oct 2025 17:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.045386
- Title: DP$^2$O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution
- Title(参考訳): DP$^2$O-SR:実世界の超解像に対する直接知覚的選好最適化
- Authors: Rongyuan Wu, Lingchen Sun, Zhengqiang Zhang, Shihao Wang, Tianhe Wu, Qiaosi Yi, Shuai Li, Lei Zhang,
- Abstract要約: コストのかかる人的アノテーションを必要とせずに、生成モデルと知覚的嗜好を整合させるフレームワークを導入する。
DP$2$O-SRは知覚品質を著しく改善し,実世界のベンチマークによく適合することを示す。
- 参考スコア(独自算出の注目度): 31.6824458800392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from pre-trained text-to-image (T2I) diffusion models, real-world image super-resolution (Real-ISR) methods can synthesize rich and realistic details. However, due to the inherent stochasticity of T2I models, different noise inputs often lead to outputs with varying perceptual quality. Although this randomness is sometimes seen as a limitation, it also introduces a wider perceptual quality range, which can be exploited to improve Real-ISR performance. To this end, we introduce Direct Perceptual Preference Optimization for Real-ISR (DP$^2$O-SR), a framework that aligns generative models with perceptual preferences without requiring costly human annotations. We construct a hybrid reward signal by combining full-reference and no-reference image quality assessment (IQA) models trained on large-scale human preference datasets. This reward encourages both structural fidelity and natural appearance. To better utilize perceptual diversity, we move beyond the standard best-vs-worst selection and construct multiple preference pairs from outputs of the same model. Our analysis reveals that the optimal selection ratio depends on model capacity: smaller models benefit from broader coverage, while larger models respond better to stronger contrast in supervision. Furthermore, we propose hierarchical preference optimization, which adaptively weights training pairs based on intra-group reward gaps and inter-group diversity, enabling more efficient and stable learning. Extensive experiments across both diffusion- and flow-based T2I backbones demonstrate that DP$^2$O-SR significantly improves perceptual quality and generalizes well to real-world benchmarks.
- Abstract(参考訳): 事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルと実世界の画像超解像法(Real-ISR)により、リッチでリアルな詳細を合成することができる。
しかし、T2Iモデル固有の確率性のため、異なるノイズ入力は知覚品質の異なる出力につながることが多い。
このランダム性は時として制限と見なされるが、より広い知覚品質範囲を導入し、リアルISRの性能を向上させるために利用することができる。
この目的のために我々は,生成モデルと知覚的嗜好を協調するフレームワークであるReal-ISR (DP$^2$O-SR) の直接パーセプチュアルな選好最適化(Direct Perceptual Preference Optimization for Real-ISR)を導入する。
我々は,大規模人間の嗜好データセットに基づいて学習した全参照画像品質評価(IQA)モデルと非参照画像品質評価(IQA)モデルを組み合わせたハイブリッド報酬信号を構築した。
この報酬は、構造的忠実さと自然な外観の両方を促進する。
知覚の多様性をよりよく活用するために、我々は標準のベストvs-ワースト選択を超えて、同じモデルの出力から複数の選好ペアを構築する。
我々の分析によれば、最適選択比はモデルキャパシティに依存し、より小さなモデルはより広範なカバレッジの恩恵を受ける一方、より大きなモデルは監督においてより強いコントラストに反応する。
さらに、グループ内報酬ギャップとグループ間多様性に基づいてトレーニングペアを適応的に重み付けし、より効率的で安定した学習を可能にする階層的選好最適化を提案する。
拡散および流動に基づくT2Iバックボーンの広範な実験により、DP$^2$O-SRは知覚品質を著しく改善し、実世界のベンチマークによく適合することを示した。
関連論文リスト
- APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport [37.21695864040979]
報酬モデル(RM)は、強化学習(Reinforcement Learning)を通じて、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
本稿では,適応的マージン機構によりBT系RMを効果的に強化する手法を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:13:28Z) - Unified Reward Model for Multimodal Understanding and Generation [32.22714522329413]
本稿では,マルチモーダル理解と生成評価のための最初の統一報酬モデルUnifiedRewardを提案する。
まず、構築した大規模人間の嗜好データセットに基づいてUnifiedRewardを開発し、画像生成/映像生成/理解タスクを含む。
論文 参考訳(メタデータ) (2025-03-07T08:36:05Z) - Dual Caption Preference Optimization for Diffusion Models [53.218293277964165]
テキストから画像への拡散モデルを改善するために、Dual Caption Preference Optimization (DCPO)を導入する。
DCPOは2つの異なるキャプションをそれぞれの好みペアに割り当て、学習信号を強化する。
実験の結果,DCPOは画像品質とプロンプトとの関連性を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。