論文の概要: Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning
- arxiv url: http://arxiv.org/abs/2601.02918v1
- Date: Tue, 06 Jan 2026 11:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.903665
- Title: Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning
- Title(参考訳): Zoom-IQA:Reliable Region-Aware Reasoningによる画像品質評価
- Authors: Guoqiang Liang, Jianyi Wang, Zhonghua Wu, Shangchen Zhou,
- Abstract要約: VLMに基づくIQAモデルであるZoom-IQAを導入し、重要な認知行動を明確にエミュレートする。
Zoom-IQAは堅牢性、説明可能性、一般化の向上を実現している。
画像復元などの下流タスクへの応用は、Zoom-IQAの有効性をさらに示している。
- 参考スコア(独自算出の注目度): 32.30800226412995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Quality Assessment (IQA) is a long-standing problem in computer vision. Previous methods typically focus on predicting numerical scores without explanation or provide low-level descriptions lacking precise scores. Recent reasoning-based vision language models (VLMs) have shown strong potential for IQA, enabling joint generation of quality descriptions and scores. However, we notice that existing VLM-based IQA methods tend to exhibit unreliable reasoning due to their limited capability of integrating visual and textual cues. In this work, we introduce Zoom-IQA, a VLM-based IQA model to explicitly emulate key cognitive behaviors: uncertainty awareness, region reasoning, and iterative refinement. Specifically, we present a two-stage training pipeline: 1) supervised fine-tuning (SFT) on our Grounded-Rationale-IQA (GR-IQA) dataset to teach the model to ground its assessments in key regions; and 2) reinforcement learning (RL) for dynamic policy exploration, primarily stabilized by our KL-Coverage regularizer to prevent reasoning and scoring diversity collapse, and supported by a Progressive Re-sampling Strategy to mitigate annotation bias. Extensive experiments show that Zoom-IQA achieves improved robustness, explainability, and generalization. The application to downstream tasks, such as image restoration, further demonstrates the effectiveness of Zoom-IQA.
- Abstract(参考訳): 画像品質評価(IQA)は、コンピュータビジョンにおける長年の問題である。
従来の手法では、説明なしに数値的なスコアを予測することや、正確なスコアを欠いた低レベルの説明に重点を置いていた。
近年の推論に基づく視覚言語モデル(VLM)はIQAの強力な可能性を示し、品質記述とスコアの同時生成を可能にしている。
しかし,既存のVLMベースのIQA手法は,視覚的・テキスト的手法の統合能力に限界があるため,信頼性が低い。
本研究では,VLMに基づくIQAモデルであるZoom-IQAを紹介する。
具体的には、2段階のトレーニングパイプラインを紹介します。
1)GR-IQA(GR-IQA)データセットの教師付き微調整(SFT)により、重要な領域における評価の基盤となるモデルを教える。
2) 動的政策探索のための強化学習 (RL) は, 主に我々のKL-Coverage正則化によって, 多様性の崩壊の推論やスコアリングを防止し, アノテーションバイアスを軽減するためのプログレッシブ・リサンプリング・ストラテジーによって支援されている。
実験により、Zoom-IQAはロバスト性、説明可能性、一般化の向上を実現することが示された。
画像復元などの下流タスクへの応用は、Zoom-IQAの有効性をさらに示している。
関連論文リスト
- Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment [22.184690568393126]
強化微調整(Reinforcement fine-tuning, RFT)は、LMMトレーニングのパラダイムである。
マルチステージ RFT IQA フレームワーク (-IQA) を提案する。
結果のRefine-IQAシリーズモデルは、知覚とスコアリングの両方で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-04T22:46:10Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Backdoor Attacks against No-Reference Image Quality Assessment Models via a Scalable Trigger [76.36315347198195]
No-Reference Image Quality Assessment (NR-IQA) はコンピュータビジョンシステムの評価と最適化において重要な役割を果たしている。
近年の研究では、NR-IQAモデルが敵攻撃の影響を受けやすいことが示されている。
NR-IQA(BAIQA)に対する新規中毒性バックドアアタックを報告した。
論文 参考訳(メタデータ) (2024-12-10T08:07:19Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。