Fugu-MT 論文翻訳(概要): Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning

論文の概要: Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning

arxiv url: http://arxiv.org/abs/2601.02918v1
Date: Tue, 06 Jan 2026 11:00:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-07 17:02:12.903665
Title: Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning
Title（参考訳）: Zoom-IQA:Reliable Region-Aware Reasoningによる画像品質評価
Authors: Guoqiang Liang, Jianyi Wang, Zhonghua Wu, Shangchen Zhou,
Abstract要約: VLMに基づくIQAモデルであるZoom-IQAを導入し、重要な認知行動を明確にエミュレートする。 Zoom-IQAは堅牢性、説明可能性、一般化の向上を実現している。画像復元などの下流タスクへの応用は、Zoom-IQAの有効性をさらに示している。
参考スコア（独自算出の注目度）: 32.30800226412995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image Quality Assessment (IQA) is a long-standing problem in computer vision. Previous methods typically focus on predicting numerical scores without explanation or provide low-level descriptions lacking precise scores. Recent reasoning-based vision language models (VLMs) have shown strong potential for IQA, enabling joint generation of quality descriptions and scores. However, we notice that existing VLM-based IQA methods tend to exhibit unreliable reasoning due to their limited capability of integrating visual and textual cues. In this work, we introduce Zoom-IQA, a VLM-based IQA model to explicitly emulate key cognitive behaviors: uncertainty awareness, region reasoning, and iterative refinement. Specifically, we present a two-stage training pipeline: 1) supervised fine-tuning (SFT) on our Grounded-Rationale-IQA (GR-IQA) dataset to teach the model to ground its assessments in key regions; and 2) reinforcement learning (RL) for dynamic policy exploration, primarily stabilized by our KL-Coverage regularizer to prevent reasoning and scoring diversity collapse, and supported by a Progressive Re-sampling Strategy to mitigate annotation bias. Extensive experiments show that Zoom-IQA achieves improved robustness, explainability, and generalization. The application to downstream tasks, such as image restoration, further demonstrates the effectiveness of Zoom-IQA.
Abstract（参考訳）: 画像品質評価(IQA)は、コンピュータビジョンにおける長年の問題である。従来の手法では、説明なしに数値的なスコアを予測することや、正確なスコアを欠いた低レベルの説明に重点を置いていた。近年の推論に基づく視覚言語モデル(VLM)はIQAの強力な可能性を示し、品質記述とスコアの同時生成を可能にしている。しかし,既存のVLMベースのIQA手法は,視覚的・テキスト的手法の統合能力に限界があるため,信頼性が低い。本研究では,VLMに基づくIQAモデルであるZoom-IQAを紹介する。具体的には、2段階のトレーニングパイプラインを紹介します。 1)GR-IQA(GR-IQA)データセットの教師付き微調整(SFT)により、重要な領域における評価の基盤となるモデルを教える。 2) 動的政策探索のための強化学習 (RL) は, 主に我々のKL-Coverage正則化によって, 多様性の崩壊の推論やスコアリングを防止し, アノテーションバイアスを軽減するためのプログレッシブ・リサンプリング・ストラテジーによって支援されている。実験により、Zoom-IQAはロバスト性、説明可能性、一般化の向上を実現することが示された。画像復元などの下流タスクへの応用は、Zoom-IQAの有効性をさらに示している。

関連論文リスト

AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。 AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文参考訳（メタデータ） (2025-09-30T09:37:01Z)
VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning [50.34205095371895]
映像品質評価は、知覚的品質劣化を客観的に定量化することを目的としている。既存のVQAモデルには2つの限界がある。推論に基づくVQAフレームワークである textbfVQAThinker を提案する。
論文参考訳（メタデータ） (2025-08-08T06:16:23Z)
Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment [22.184690568393126]
強化微調整(Reinforcement fine-tuning, RFT)は、LMMトレーニングのパラダイムである。マルチステージ RFT IQA フレームワーク (-IQA) を提案する。結果のRefine-IQAシリーズモデルは、知覚とスコアリングの両方で優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-04T22:46:10Z)
TRIQA: Image Quality Assessment by Contrastive Pretraining on Ordered Distortion Triplets [31.2422359004089]
No-Reference (NR) IQA は参照画像がないため、特に困難である。本稿では,限られた数の参照コンテンツ画像を用いて,カスタムデータセットを構築する新しい手法を提案する。対照的な三重項学習を用いて品質認識モデルを訓練し、より少ないサンプルで効率的なトレーニングを可能にする。
論文参考訳（メタデータ） (2025-07-16T23:43:12Z)
Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-03-28T17:59:54Z)
Backdoor Attacks against No-Reference Image Quality Assessment Models via a Scalable Trigger [76.36315347198195]
No-Reference Image Quality Assessment (NR-IQA) はコンピュータビジョンシステムの評価と最適化において重要な役割を果たしている。近年の研究では、NR-IQAモデルが敵攻撃の影響を受けやすいことが示されている。 NR-IQA(BAIQA)に対する新規中毒性バックドアアタックを報告した。
論文参考訳（メタデータ） (2024-12-10T08:07:19Z)
Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。 GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文参考訳（メタデータ） (2024-09-09T07:26:21Z)
DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文参考訳（メタデータ） (2024-05-30T12:32:35Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。