論文の概要: DP$^2$O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2510.18851v1
- Date: Tue, 21 Oct 2025 17:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.045386
- Title: DP$^2$O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution
- Title(参考訳): DP$^2$O-SR:実世界の超解像に対する直接知覚的選好最適化
- Authors: Rongyuan Wu, Lingchen Sun, Zhengqiang Zhang, Shihao Wang, Tianhe Wu, Qiaosi Yi, Shuai Li, Lei Zhang,
- Abstract要約: コストのかかる人的アノテーションを必要とせずに、生成モデルと知覚的嗜好を整合させるフレームワークを導入する。
DP$2$O-SRは知覚品質を著しく改善し,実世界のベンチマークによく適合することを示す。
- 参考スコア(独自算出の注目度): 31.6824458800392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from pre-trained text-to-image (T2I) diffusion models, real-world image super-resolution (Real-ISR) methods can synthesize rich and realistic details. However, due to the inherent stochasticity of T2I models, different noise inputs often lead to outputs with varying perceptual quality. Although this randomness is sometimes seen as a limitation, it also introduces a wider perceptual quality range, which can be exploited to improve Real-ISR performance. To this end, we introduce Direct Perceptual Preference Optimization for Real-ISR (DP$^2$O-SR), a framework that aligns generative models with perceptual preferences without requiring costly human annotations. We construct a hybrid reward signal by combining full-reference and no-reference image quality assessment (IQA) models trained on large-scale human preference datasets. This reward encourages both structural fidelity and natural appearance. To better utilize perceptual diversity, we move beyond the standard best-vs-worst selection and construct multiple preference pairs from outputs of the same model. Our analysis reveals that the optimal selection ratio depends on model capacity: smaller models benefit from broader coverage, while larger models respond better to stronger contrast in supervision. Furthermore, we propose hierarchical preference optimization, which adaptively weights training pairs based on intra-group reward gaps and inter-group diversity, enabling more efficient and stable learning. Extensive experiments across both diffusion- and flow-based T2I backbones demonstrate that DP$^2$O-SR significantly improves perceptual quality and generalizes well to real-world benchmarks.
- Abstract(参考訳): 事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルと実世界の画像超解像法(Real-ISR)により、リッチでリアルな詳細を合成することができる。
しかし、T2Iモデル固有の確率性のため、異なるノイズ入力は知覚品質の異なる出力につながることが多い。
このランダム性は時として制限と見なされるが、より広い知覚品質範囲を導入し、リアルISRの性能を向上させるために利用することができる。
この目的のために我々は,生成モデルと知覚的嗜好を協調するフレームワークであるReal-ISR (DP$^2$O-SR) の直接パーセプチュアルな選好最適化(Direct Perceptual Preference Optimization for Real-ISR)を導入する。
我々は,大規模人間の嗜好データセットに基づいて学習した全参照画像品質評価(IQA)モデルと非参照画像品質評価(IQA)モデルを組み合わせたハイブリッド報酬信号を構築した。
この報酬は、構造的忠実さと自然な外観の両方を促進する。
知覚の多様性をよりよく活用するために、我々は標準のベストvs-ワースト選択を超えて、同じモデルの出力から複数の選好ペアを構築する。
我々の分析によれば、最適選択比はモデルキャパシティに依存し、より小さなモデルはより広範なカバレッジの恩恵を受ける一方、より大きなモデルは監督においてより強いコントラストに反応する。
さらに、グループ内報酬ギャップとグループ間多様性に基づいてトレーニングペアを適応的に重み付けし、より効率的で安定した学習を可能にする階層的選好最適化を提案する。
拡散および流動に基づくT2Iバックボーンの広範な実験により、DP$^2$O-SRは知覚品質を著しく改善し、実世界のベンチマークによく適合することを示した。
関連論文リスト
- Bidirectional Reward-Guided Diffusion for Real-World Image Super-Resolution [79.35296000454694]
拡散に基づく超解像は、豊富な詳細を合成することができるが、合成ペアデータで訓練されたモデルは、現実世界のLR画像では失敗することが多い。
我々は,超解像を軌道レベルの優先最適化として定式化する報奨誘導拡散フレームワークであるBird-SRを提案する。
実世界のSRベンチマークの実験では、Bird-SRは知覚品質において最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-05T19:21:45Z) - Unified Personalized Reward Model for Vision Generation [27.496220369122494]
視覚生成のためのパーソナライズされた報酬モデルであるUnifiedReward-Flexを提案する。
我々はまず,高度閉ソースVLMからブートストラップSFTまで,構造化された高品質な推論トレースを蒸留した。
次に、慎重にキュレートされた選好ペア上で直接選好最適化(DPO)を行い、推論の忠実度と識別的アライメントをさらに強化する。
論文 参考訳(メタデータ) (2026-02-02T17:44:21Z) - APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport [37.21695864040979]
報酬モデル(RM)は、強化学習(Reinforcement Learning)を通じて、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
本稿では,適応的マージン機構によりBT系RMを効果的に強化する手法を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:13:28Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Unified Reward Model for Multimodal Understanding and Generation [32.22714522329413]
本稿では,マルチモーダル理解と生成評価のための最初の統一報酬モデルUnifiedRewardを提案する。
まず、構築した大規模人間の嗜好データセットに基づいてUnifiedRewardを開発し、画像生成/映像生成/理解タスクを含む。
論文 参考訳(メタデータ) (2025-03-07T08:36:05Z) - Dual Caption Preference Optimization for Diffusion Models [53.218293277964165]
テキストから画像への拡散モデルを改善するために、Dual Caption Preference Optimization (DCPO)を導入する。
DCPOは2つの異なるキャプションをそれぞれの好みペアに割り当て、学習信号を強化する。
実験の結果,DCPOは画像品質とプロンプトとの関連性を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。