論文の概要: Q-Probe: Scaling Image Quality Assessment to High Resolution via Context-Aware Agentic Probing
- arxiv url: http://arxiv.org/abs/2601.15356v2
- Date: Tue, 27 Jan 2026 03:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 13:07:59.126995
- Title: Q-Probe: Scaling Image Quality Assessment to High Resolution via Context-Aware Agentic Probing
- Title(参考訳): Q-Probe: 文脈対応エージェントプローブによる画像品質評価の高分解能化
- Authors: Xiang Li, XueHeng Li, Yu Wang, XuanHua He, ZhangChi Hu, WeiWei Yu, ChengJun Xie,
- Abstract要約: シンキング・ウィズ・イメージ」パラダイムは、自然界の深みをアーティファクトとして誤解し、刺激的な「クロール・インプリーズ・デグラデーション」バイアスを誘発する。
Q-Probeは,IQAを文脈認識型探索により高分解能に拡張するために設計された,最初のエージェント型IQAフレームワークである。
Q-Probeは、高解像度設定で最先端の性能を実現し、解像度スケールで優れた効率を維持する。
- 参考スコア(独自算出の注目度): 10.754977682331855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has empowered Multimodal Large Language Models (MLLMs) to achieve superior human preference alignment in Image Quality Assessment (IQA). However, existing RL-based IQA models typically rely on coarse-grained global views, failing to capture subtle local degradations in high-resolution scenarios. While emerging "Thinking with Images" paradigms enable multi-scale visual perception via zoom-in mechanisms, their direct adaptation to IQA induces spurious "cropping-implies-degradation" biases and misinterprets natural depth-of-field as artifacts. To address these challenges, we propose Q-Probe, the first agentic IQA framework designed to scale IQA to high resolution via context-aware probing. First, we construct Vista-Bench, a pioneering benchmark tailored for fine-grained local degradation analysis in high-resolution IQA settings. Furthermore, we propose a three-stage training paradigm that progressively aligns the model with human preferences, while simultaneously eliminating causal bias through a novel context-aware cropping strategy. Extensive experiments demonstrate that Q-Probe achieves state-of-the-art performance in high-resolution settings while maintaining superior efficacy across resolution scales.
- Abstract(参考訳): Reinforcement Learning (RL)は、画像品質評価(IQA)において、より優れた人間の嗜好調整を実現するために、MLLM(Multimodal Large Language Models)の権限を付与した。
しかし、既存のRLベースのIQAモデルは、大まかなグローバルビューに依存しており、高解像度シナリオにおける微妙な局所的な劣化を捉えていない。
シンキング・ウィズ・イメージ(Thinking with Images)パラダイムはズームイン機構によるマルチスケールの視覚知覚を可能にするが、IQAへの直接的な適応は、急激な「クロップ・インプリメンテーション・デグラデーション」バイアスを誘発し、フィールドの自然深度をアーティファクトとして誤解する。
これらの課題に対処するために, IQA を高分解能に拡張するための最初のエージェント IQA フレームワークである Q-Probe を提案する。
第一に、高分解能IQA設定における局所劣化解析を微粒化するための先駆的なベンチマークであるVista-Benchを構築する。
さらに,新たな文脈認識型収穫戦略によって因果バイアスを同時に排除しつつ,モデルと人間の嗜好を段階的に整合させる3段階学習パラダイムを提案する。
広汎な実験により、Q-Probeは高解像度設定で最先端性能を実現し、高解像度スケールでの優れた有効性を維持した。
関連論文リスト
- Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning [32.30800226412995]
VLMに基づくIQAモデルであるZoom-IQAを導入し、重要な認知行動を明確にエミュレートする。
Zoom-IQAは、堅牢性、説明可能性、一般化の向上を実現する。
画像復元などの下流タスクへの応用は、Zoom-IQAの有効性をさらに示している。
論文 参考訳(メタデータ) (2026-01-06T11:00:17Z) - Image Quality Assessment for Embodied AI [103.66095742463195]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。
具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文 参考訳(メタデータ) (2025-05-22T15:51:07Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - Structural Similarity in Deep Features: Image Quality Assessment Robust to Geometrically Disparate Reference [22.323905448096284]
上記の問題に対処する統合型非学習型Deep Structure similarity (DeepSSIM) アプローチを提案する。
提案手法は,AR-IQAデータセット上での最先端性能を実現し,各種GDR-IQAテストケースに対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-27T09:51:23Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - When No-Reference Image Quality Models Meet MAP Estimation in Diffusion Latents [92.45867913876691]
非参照画像品質評価(NR-IQA)モデルは、知覚された画像品質を効果的に定量化することができる。
NR-IQAモデルは、画像強調のための最大後部推定(MAP)フレームワークにプラグイン可能であることを示す。
論文 参考訳(メタデータ) (2024-03-11T03:35:41Z) - Local Distortion Aware Efficient Transformer Adaptation for Image
Quality Assessment [62.074473976962835]
局所歪み特性を適切に注入することにより、IQAタスクにおいて、より大きな事前訓練および固定された基礎モデルがより優れた性能を発揮することを示す。
具体的には、局所歪み構造と視覚変換器(ViT)の誘導バイアスの欠如に対して、別の事前学習畳み込みニューラルネットワーク(CNN)を用いる。
本研究では, 予め訓練したCNNから局所歪み特徴を得るための局所歪み抽出器と, 局所歪み特徴をViTに注入する局所歪み注入器を提案する。
論文 参考訳(メタデータ) (2023-08-23T08:41:21Z) - Uncertainty-Aware Blind Image Quality Assessment in the Laboratory and
Wild [98.48284827503409]
我々は,テキスト化BIQAモデルを開発し,それを合成的および現実的歪みの両方で訓練するアプローチを提案する。
我々は、多数の画像ペアに対してBIQAのためのディープニューラルネットワークを最適化するために、忠実度損失を用いる。
6つのIQAデータベースの実験は、実験室と野生動物における画像品質を盲目的に評価する学習手法の可能性を示唆している。
論文 参考訳(メタデータ) (2020-05-28T13:35:23Z) - Comparison of Image Quality Models for Optimization of Image Processing
Systems [41.57409136781606]
我々は、11のフル参照IQAモデルを使用して、4つの低レベル視覚タスクのためにディープニューラルネットワークをトレーニングします。
最適化された画像に対する主観的テストにより、それらの知覚的性能の観点から、競合するモデルのランク付けが可能となる。
論文 参考訳(メタデータ) (2020-05-04T09:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。