論文の概要: Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2601.22920v1
- Date: Fri, 30 Jan 2026 12:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.441195
- Title: Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment
- Title(参考訳): Q-Hawkeye: 画像品質評価のための信頼性の高いビジュアルポリシー最適化
- Authors: Wulin Xie, Rui Dai, Ruidong Ding, Kaikui Liu, Xiangxiang Chu, Xinwen Hou, Jie Wen,
- Abstract要約: 本稿では,RLに基づく信頼性の高い視覚ポリシー最適化フレームワークであるQ-Hawkeyeを提案する。
Q-Hawkeyeは、複数のロールアウトにまたがる予測スコアのばらつきを用いて予測の不確実性を推定する。
本稿では,実際の視覚的証拠に品質判断を根拠として,モデルに制約を与えるインプシット知覚損失を導入する。
- 参考スコア(独自算出の注目度): 25.916354359994624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Quality Assessment (IQA) predicts perceptual quality scores consistent with human judgments. Recent RL-based IQA methods built on MLLMs focus on generating visual quality descriptions and scores, ignoring two key reliability limitations: (i) although the model's prediction stability varies significantly across training samples, existing GRPO-based methods apply uniform advantage weighting, thereby amplifying noisy signals from unstable samples in gradient updates; (ii) most works emphasize text-grounded reasoning over images while overlooking the model's visual perception ability of image content. In this paper, we propose Q-Hawkeye, an RL-based reliable visual policy optimization framework that redesigns the learning signal through unified Uncertainty-Aware Dynamic Optimization and Perception-Aware Optimization. Q-Hawkeye estimates predictive uncertainty using the variance of predicted scores across multiple rollouts and leverages this uncertainty to reweight each sample's update strength, stabilizing policy optimization. To strengthen perceptual reliability, we construct paired inputs of degraded images and their original images and introduce an Implicit Perception Loss that constrains the model to ground its quality judgments in genuine visual evidence. Extensive experiments demonstrate that Q-Hawkeye outperforms state-of-the-art methods and generalizes better across multiple datasets. The code and models will be made available.
- Abstract(参考訳): 画像品質評価(IQA)は、人間の判断と一致した知覚品質スコアを予測する。
MLLMをベースとした最近のRLベースのIQA手法は,2つの重要な信頼性制限を無視して,視覚的品質記述とスコアの生成に重点を置いている。
(i)モデルの予測安定性はトレーニングサンプル間で大きく異なるが,既存のGRPO法では一様優位重み付けを適用し,不安定なサンプルからの雑音信号の勾配更新を増幅する。
(II)ほとんどの研究は、画像コンテンツにおけるモデルの視覚的知覚能力を見越しながら、画像に対するテキストによる推論を強調している。
本稿では,RLに基づく信頼性の高い視覚ポリシー最適化フレームワークであるQ-Hawkeyeを提案する。
Q-Hawkeyeは、複数のロールアウトで予測されたスコアのばらつきを利用して予測の不確実性を推定し、この不確実性を利用して各サンプルの更新強度を再重み付けし、ポリシー最適化を安定化する。
知覚信頼性を高めるため,劣化した画像とその原画像のペア入力を構築し,実際の視覚的証拠に品質判断を基礎づけることを制約するインプリシット知覚損失を導入する。
大規模な実験では、Q-Hawkeyeは最先端の手法より優れ、複数のデータセットでより良く一般化されている。
コードとモデルは利用可能になる。
関連論文リスト
- OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - DifFIQA: Face Image Quality Assessment Using Denoising Diffusion
Probabilistic Models [1.217503190366097]
顔画像品質評価(FIQA)技術は、これらの性能劣化を軽減することを目的としている。
拡散確率モデル(DDPM)に基づく強力な新しいFIQA手法DifFIQAを提案する。
拡散に基づく摂動は計算コストが高いため、DifFIQA(R)と呼ばれる回帰ベースの品質予測器にDifFIQAで符号化された知識を蒸留する。
論文 参考訳(メタデータ) (2023-05-09T21:03:13Z) - Uncertainty-Aware Blind Image Quality Assessment in the Laboratory and
Wild [98.48284827503409]
我々は,テキスト化BIQAモデルを開発し,それを合成的および現実的歪みの両方で訓練するアプローチを提案する。
我々は、多数の画像ペアに対してBIQAのためのディープニューラルネットワークを最適化するために、忠実度損失を用いる。
6つのIQAデータベースの実験は、実験室と野生動物における画像品質を盲目的に評価する学習手法の可能性を示唆している。
論文 参考訳(メタデータ) (2020-05-28T13:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。