論文の概要: Multi-Granularity Reasoning for Image Quality Assessment via Attribute-Aware Reinforcement Learning to Rank
- arxiv url: http://arxiv.org/abs/2604.09704v1
- Date: Tue, 07 Apr 2026 16:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.614183
- Title: Multi-Granularity Reasoning for Image Quality Assessment via Attribute-Aware Reinforcement Learning to Rank
- Title(参考訳): 属性認識強化学習による画像品質評価のための多粒度推論
- Authors: Xiangyong Chen, Xiaochuan Lin, Haoran Liu, Xuan Li, Yichen Su, Xiangwei Guo,
- Abstract要約: 我々はRL2Rを拡張した多粒度推論フレームワークMG-IQA(Multi-Granularity IQA)を提案する。
提案手法は,(1)VLMから構造化された多属性推論を引き出す属性認識促進戦略,(2)グループ相対的政策最適化のための属性固有忠実報酬を計算する多次元サーストン報酬モデル,(3)合成歪み,真の歪み,AI生成画像データセットを知覚的スケールの調整なしに安定な共同トレーニングを可能にするクロスドメインアライメント機構,の3つの重要なイノベーションを紹介する。
- 参考スコア(独自算出の注目度): 12.385224959925523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reasoning-induced image quality assessment (IQA) have demonstrated the power of reinforcement learning to rank (RL2R) for training vision-language models (VLMs) to assess perceptual quality. However, existing approaches operate at a single granularity, predicting only an overall quality score, while overlooking the multi-dimensional nature of human quality perception, which encompasses attributes such as sharpness, color fidelity, noise level, and compositional aesthetics. In this paper, we propose MG-IQA (Multi-Granularity IQA), a multi-granularity reasoning framework that extends RL2R to jointly assess overall image quality and fine-grained quality attributes within a single inference pass. Our approach introduces three key innovations: (1) an attribute-aware prompting strategy that elicits structured multi-attribute reasoning from VLMs; (2) a multi-dimensional Thurstone reward model that computes attribute-specific fidelity rewards for group relative policy optimization; and (3) a cross-domain alignment mechanism that enables stable joint training across synthetic distortion, authentic distortion, and AI-generated image datasets without perceptual scale re-alignment. Extensive experiments on eight IQA benchmarks demonstrate that MG-IQA consistently outperforms state-of-the-art methods in both overall quality prediction (average SRCC improvement of 2.1\%) and attribute-level assessment, while generating interpretable, human-aligned quality descriptions.
- Abstract(参考訳): 近年の推論による画像品質評価(IQA)の進歩は、視覚言語モデル(VLM)を訓練するための強化学習(RL2R)の能力を示し、知覚的品質を評価する。
しかしながら、既存のアプローチは1つの粒度で動作し、全体的な品質スコアのみを予測する一方で、シャープネス、色忠実性、ノイズレベル、作曲美学などの属性を含む、人間の品質知覚の多次元的な性質を見越す。
本稿では,RL2Rを拡張した多粒度推論フレームワークMG-IQA(Multi-Granularity IQA)を提案する。
提案手法は,(1)VLMから構造化された多属性推論を引き出す属性認識促進戦略,(2)グループ相対的政策最適化のための属性固有忠実報酬を計算する多次元サーストン報酬モデル,(3)合成歪み,真の歪み,AI生成画像データセットを知覚的スケールの調整なしに安定な共同トレーニングを可能にするクロスドメインアライメント機構,の3つの重要なイノベーションを紹介する。
8つのIQAベンチマークの大規模な実験により、MG-IQAは、全体的な品質予測(平均SRCCの2.1\%の改善)と属性レベルの評価の両方において、常に最先端の手法よりも優れており、解釈可能な、人間に整合した品質記述を生成する。
関連論文リスト
- Beyond Ground-Truth: Leveraging Image Quality Priors for Real-World Image Restoration [21.358966811756645]
実世界の画像復元は、制御されていない条件下で取得した劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
既存の手法は通常、GTが完全な基準品質を提供すると仮定して、GTの監督に依存する。
本研究では,事前学習したNo-Reference Image Quality Assessment(NR-IQA)モデルから抽出した画像品質優先(IQP)モデルを提案する。
論文 参考訳(メタデータ) (2026-03-31T14:13:10Z) - PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization [12.993619998545633]
PreResQ-R1はPreference-Response Disentangled Reinforcement Learningフレームワークである。
1つの推論駆動最適化スキームにおいて絶対スコア回帰と相対ランク一貫性を統一する。
10 IQA と 5 VQA のベンチマークにおいて、SRCC と PLCC のメトリクスで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-11-07T16:19:50Z) - VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank [30.316630325648834]
推論による非参照IQA(NR-IQA)モデルであるVisualQuality-R1を導入し、強化学習でランク付けする。
VisualQuality-R1 は差別的深層学習に基づく NR-IQA モデルより一貫して優れていることを示す。
VisualQuality-R1は、コンテキスト的にリッチでヒューマンアラインな品質記述を生成することができる。
論文 参考訳(メタデータ) (2025-05-20T14:56:50Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。