論文の概要: AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2509.26006v2
- Date: Wed, 01 Oct 2025 04:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.837827
- Title: AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment
- Title(参考訳): AgenticIQA: 適応的で解釈可能な画像品質評価のためのエージェントフレームワーク
- Authors: Hanwei Zhu, Yu Tian, Keyan Ding, Baoliang Chen, Bolin Chen, Shiqi Wang, Weisi Lin,
- Abstract要約: 画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
- 参考スコア(独自算出の注目度): 69.06977852423564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image quality assessment (IQA) is inherently complex, as it reflects both the quantification and interpretation of perceptual quality rooted in the human visual system. Conventional approaches typically rely on fixed models to output scalar scores, limiting their adaptability to diverse distortions, user-specific queries, and interpretability needs. Furthermore, scoring and interpretation are often treated as independent processes, despite their interdependence: interpretation identifies perceptual degradations, while scoring abstracts them into a compact metric. To address these limitations, we propose AgenticIQA, a modular agentic framework that integrates vision-language models (VLMs) with traditional IQA tools in a dynamic, query-aware manner. AgenticIQA decomposes IQA into four subtasks -- distortion detection, distortion analysis, tool selection, and tool execution -- coordinated by a planner, executor, and summarizer. The planner formulates task-specific strategies, the executor collects perceptual evidence via tool invocation, and the summarizer integrates this evidence to produce accurate scores with human-aligned explanations. To support training and evaluation, we introduce AgenticIQA-200K, a large-scale instruction dataset tailored for IQA agents, and AgenticIQA-Eval, the first benchmark for assessing the planning, execution, and summarization capabilities of VLM-based IQA agents. Extensive experiments across diverse IQA datasets demonstrate that AgenticIQA consistently surpasses strong baselines in both scoring accuracy and explanatory alignment.
- Abstract(参考訳): 画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映しているため、本質的に複雑である。
従来のアプローチでは、スカラースコアを出力するための固定モデルに依存しており、様々な歪み、ユーザ固有のクエリ、解釈可能性のニーズへの適応性を制限している。
さらに、スコアリングと解釈はしばしば、相互依存にもかかわらず独立したプロセスとして扱われる:解釈は知覚的劣化を識別し、スコアリングはそれらをコンパクトな計量に抽象化する。
本稿では,視覚言語モデル(VLM)と従来のIQAツールを統合するモジュール型エージェントフレームワークであるAgenticIQAを提案する。
AgenticIQAはIQAを4つのサブタスク(歪み検出、歪み解析、ツールの選択、ツール実行)に分解する。
プランナーはタスク固有の戦略を定式化し、実行者はツールの呼び出しを通じて知覚的証拠を収集し、要約器は、この証拠を統合して人間に沿った説明と正確なスコアを生成する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
多様なIQAデータセットにわたる大規模な実験により、AgenticIQAは評価精度と説明アライメントの両方において、強いベースラインを一貫して超越していることが示された。
関連論文リスト
- Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning [32.30800226412995]
VLMに基づくIQAモデルであるZoom-IQAを導入し、重要な認知行動を明確にエミュレートする。
Zoom-IQAは、堅牢性、説明可能性、一般化の向上を実現する。
画像復元などの下流タスクへの応用は、Zoom-IQAの有効性をさらに示している。
論文 参考訳(メタデータ) (2026-01-06T11:00:17Z) - iDETEX: Empowering MLLMs for Intelligent DETailed EXplainable IQA [10.857047397246598]
iDETEXはMLLM(Multimodal large language model)であり、品質基盤、知覚、記述の3つの重要なタスクを同時に実行することができる。
我々は,iDETEXが全サブタスクにわたる最先端性能を実現する大規模ViDA-UGCベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-10-20T09:26:12Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Towards Flexible Evaluation for Generative Visual Question Answering [17.271448204525612]
本稿では,視覚質問応答(VQA)データセット上で,制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。
さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:56:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Image Quality Assessment: Integrating Model-Centric and Data-Centric
Approaches [20.931709027443706]
画像品質評価(IQA)は過去10年間で著しく進歩している。
ほぼ全員が、モデルとデータという2つの重要なコンポーネントを独立して考えています。
論文 参考訳(メタデータ) (2022-07-29T16:23:57Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。