論文の概要: AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2509.26006v2
- Date: Wed, 01 Oct 2025 04:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.837827
- Title: AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment
- Title(参考訳): AgenticIQA: 適応的で解釈可能な画像品質評価のためのエージェントフレームワーク
- Authors: Hanwei Zhu, Yu Tian, Keyan Ding, Baoliang Chen, Bolin Chen, Shiqi Wang, Weisi Lin,
- Abstract要約: 画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
- 参考スコア(独自算出の注目度): 69.06977852423564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image quality assessment (IQA) is inherently complex, as it reflects both the quantification and interpretation of perceptual quality rooted in the human visual system. Conventional approaches typically rely on fixed models to output scalar scores, limiting their adaptability to diverse distortions, user-specific queries, and interpretability needs. Furthermore, scoring and interpretation are often treated as independent processes, despite their interdependence: interpretation identifies perceptual degradations, while scoring abstracts them into a compact metric. To address these limitations, we propose AgenticIQA, a modular agentic framework that integrates vision-language models (VLMs) with traditional IQA tools in a dynamic, query-aware manner. AgenticIQA decomposes IQA into four subtasks -- distortion detection, distortion analysis, tool selection, and tool execution -- coordinated by a planner, executor, and summarizer. The planner formulates task-specific strategies, the executor collects perceptual evidence via tool invocation, and the summarizer integrates this evidence to produce accurate scores with human-aligned explanations. To support training and evaluation, we introduce AgenticIQA-200K, a large-scale instruction dataset tailored for IQA agents, and AgenticIQA-Eval, the first benchmark for assessing the planning, execution, and summarization capabilities of VLM-based IQA agents. Extensive experiments across diverse IQA datasets demonstrate that AgenticIQA consistently surpasses strong baselines in both scoring accuracy and explanatory alignment.
- Abstract(参考訳): 画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映しているため、本質的に複雑である。
従来のアプローチでは、スカラースコアを出力するための固定モデルに依存しており、様々な歪み、ユーザ固有のクエリ、解釈可能性のニーズへの適応性を制限している。
さらに、スコアリングと解釈はしばしば、相互依存にもかかわらず独立したプロセスとして扱われる:解釈は知覚的劣化を識別し、スコアリングはそれらをコンパクトな計量に抽象化する。
本稿では,視覚言語モデル(VLM)と従来のIQAツールを統合するモジュール型エージェントフレームワークであるAgenticIQAを提案する。
AgenticIQAはIQAを4つのサブタスク(歪み検出、歪み解析、ツールの選択、ツール実行)に分解する。
プランナーはタスク固有の戦略を定式化し、実行者はツールの呼び出しを通じて知覚的証拠を収集し、要約器は、この証拠を統合して人間に沿った説明と正確なスコアを生成する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
多様なIQAデータセットにわたる大規模な実験により、AgenticIQAは評価精度と説明アライメントの両方において、強いベースラインを一貫して超越していることが示された。
関連論文リスト
- Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Towards Flexible Evaluation for Generative Visual Question Answering [17.271448204525612]
本稿では,視覚質問応答(VQA)データセット上で,制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。
さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:56:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Image Quality Assessment: Integrating Model-Centric and Data-Centric
Approaches [20.931709027443706]
画像品質評価(IQA)は過去10年間で著しく進歩している。
ほぼ全員が、モデルとデータという2つの重要なコンポーネントを独立して考えています。
論文 参考訳(メタデータ) (2022-07-29T16:23:57Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。