論文の概要: PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.05393v1
- Date: Fri, 07 Nov 2025 16:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.83195
- Title: PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization
- Title(参考訳): PreResQ-R1:Preference-Response Disentangled Policy Optimizationによる視覚品質評価のための微粒なランク・スコア強化学習に向けて
- Authors: Zehui Feng, Tian Qiu, Tong Wu, Junxuan Li, Huayuan Xu, Ting Han,
- Abstract要約: PreResQ-R1はPreference-Response Disentangled Reinforcement Learningフレームワークである。
1つの推論駆動最適化スキームにおいて絶対スコア回帰と相対ランク一貫性を統一する。
10 IQA と 5 VQA のベンチマークにおいて、SRCC と PLCC のメトリクスで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 12.993619998545633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Quality Assessment (QA) seeks to predict human perceptual judgments of visual fidelity. While recent multimodal large language models (MLLMs) show promise in reasoning about image and video quality, existing approaches mainly rely on supervised fine-tuning or rank-only objectives, resulting in shallow reasoning, poor score calibration, and limited cross-domain generalization. We propose PreResQ-R1, a Preference-Response Disentangled Reinforcement Learning framework that unifies absolute score regression and relative ranking consistency within a single reasoning-driven optimization scheme. Unlike prior QA methods, PreResQ-R1 introduces a dual-branch reward formulation that separately models intra-sample response coherence and inter-sample preference alignment, optimized via Group Relative Policy Optimization (GRPO). This design encourages fine-grained, stable, and interpretable chain-of-thought reasoning about perceptual quality. To extend beyond static imagery, we further design a global-temporal and local-spatial data flow strategy for Video Quality Assessment. Remarkably, with reinforcement fine-tuning on only 6K images and 28K videos, PreResQ-R1 achieves state-of-the-art results across 10 IQA and 5 VQA benchmarks under both SRCC and PLCC metrics, surpassing by margins of 5.30% and textbf2.15% in IQA task, respectively. Beyond quantitative gains, it produces human-aligned reasoning traces that reveal the perceptual cues underlying quality judgments. Code and model are available.
- Abstract(参考訳): 視覚品質アセスメント(QA)は、視覚的忠実性の人間の知覚的判断を予測しようとする。
近年のMLLM(Multimodal large language model)は画像品質と映像品質の推論において有望であるが、既存のアプローチは主に教師付き微調整やランクのみの目的に依存しており、浅い推論、低いスコア校正、限られたクロスドメインの一般化をもたらす。
提案するPreResQ-R1(Preference-Response Disentangled Reinforcement Learning)フレームワークは,絶対スコアの回帰と相対ランクの整合性を単一の推論駆動最適化方式で統一する。
従来のQA法とは異なり、PreResQ-R1では、グループ相対ポリシー最適化(GRPO)を介して最適化されたサンプル内応答コヒーレンスとサンプル間優先アライメントを別々にモデル化したデュアルブランチ報酬定式化を導入している。
この設計は、知覚品質に関する細粒度、安定度、解釈可能な連鎖推論を促進する。
静的な画像を超えて、ビデオ品質評価のためのグローバル時空間データフロー戦略をさらに設計する。
注目すべきことに、PreResQ-R1は6K画像と28Kビデオにのみ強化された微調整を行い、SRCCとPLCCの両方で10 IQAと5 VQAのベンチマークで、それぞれIQAタスクのマージン5.30%とtextbf2.15%を上回っている。
定量的な利得の他に、人間の整合性推論の痕跡を生み出しており、それは知覚の根底にある品質判断の手がかりを明らかにしている。
コードとモデルは利用可能である。
関連論文リスト
- OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - HiRQA: Hierarchical Ranking and Quality Alignment for Opinion-Unaware Image Quality Assessment [10.761579471650771]
HiRQAは自己管理型の意見認識フレームワークで、ランキングと対照的な学習の組み合わせによって、階層的で品質を意識した埋め込みを提供する。
リアルタイムデプロイメントでは,画像当たり3.5ミリ秒の推論時間を持つ軽量版である textbfHiRQA-S を導入する。
論文 参考訳(メタデータ) (2025-08-20T23:48:21Z) - VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning [50.34205095371895]
映像品質評価は、知覚的品質劣化を客観的に定量化することを目的としている。
既存のVQAモデルには2つの限界がある。
推論に基づくVQAフレームワークである textbfVQAThinker を提案する。
論文 参考訳(メタデータ) (2025-08-08T06:16:23Z) - Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment [22.184690568393126]
強化微調整(Reinforcement fine-tuning, RFT)は、LMMトレーニングのパラダイムである。
マルチステージ RFT IQA フレームワーク (-IQA) を提案する。
結果のRefine-IQAシリーズモデルは、知覚とスコアリングの両方で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-04T22:46:10Z) - VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank [30.316630325648834]
推論による非参照IQA(NR-IQA)モデルであるVisualQuality-R1を導入し、強化学習でランク付けする。
VisualQuality-R1 は差別的深層学習に基づく NR-IQA モデルより一貫して優れていることを示す。
VisualQuality-R1は、コンテキスト的にリッチでヒューマンアラインな品質記述を生成することができる。
論文 参考訳(メタデータ) (2025-05-20T14:56:50Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - When No-Reference Image Quality Models Meet MAP Estimation in Diffusion Latents [92.45867913876691]
非参照画像品質評価(NR-IQA)モデルは、知覚された画像品質を効果的に定量化することができる。
NR-IQAモデルは、画像強調のための最大後部推定(MAP)フレームワークにプラグイン可能であることを示す。
論文 参考訳(メタデータ) (2024-03-11T03:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。