論文の概要: Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2411.17237v1
- Date: Tue, 26 Nov 2024 09:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:01.717901
- Title: Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment
- Title(参考訳): Grounding-IQA:画像品質評価のためのマルチモーダル言語グラウンドモデル
- Authors: Zheng Chen, Xun Zhang, Wenbo Li, Renjing Pei, Fenglong Song, Xiongkuo Min, Xiaohong Liu, Xin Yuan, Yong Guo, Yulun Zhang,
- Abstract要約: 我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
- 参考スコア(独自算出の注目度): 69.07445098168344
- License:
- Abstract: The development of multimodal large language models (MLLMs) enables the evaluation of image quality through natural language descriptions. This advancement allows for more detailed assessments. However, these MLLM-based IQA methods primarily rely on general contextual descriptions, sometimes limiting fine-grained quality assessment. To address this limitation, we introduce a new image quality assessment (IQA) task paradigm, grounding-IQA. This paradigm integrates multimodal referring and grounding with IQA to realize more fine-grained quality perception. Specifically, grounding-IQA comprises two subtasks: grounding-IQA-description (GIQA-DES) and visual question answering (GIQA-VQA). GIQA-DES involves detailed descriptions with precise locations (e.g., bounding boxes), while GIQA-VQA focuses on quality QA for local regions. To realize grounding-IQA, we construct a corresponding dataset, GIQA-160K, through our proposed automated annotation pipeline. Furthermore, we develop a well-designed benchmark, GIQA-Bench. The benchmark comprehensively evaluates the model grounding-IQA performance from three perspectives: description quality, VQA accuracy, and grounding precision. Experiments demonstrate that our proposed task paradigm, dataset, and benchmark facilitate the more fine-grained IQA application. Code: https://github.com/zhengchen1999/Grounding-IQA.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の開発により,自然言語記述による画像品質の評価が可能となった。
この進歩により、より詳細な評価が可能になる。
しかし、これらのMLLMベースのIQA法は主に一般的な文脈記述に依存しており、時には細かい品質評価を制限している。
この制限に対処するために、新しい画像品質評価(IQA)タスクパラダイム、グラウンドング-IQAを導入する。
このパラダイムはマルチモーダル参照とグラウンドをIQAと統合し、よりきめ細かい品質知覚を実現する。
具体的には、grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA) の2つのサブタスクで構成される。
GIQA-DESは正確な位置(例えば境界ボックス)の詳細な記述を含むが、GIQA-VQAは局所的な品質QAに焦点を当てている。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
さらに、よく設計されたベンチマークであるGIQA-Benchを開発した。
このベンチマークは、記述品質、VQA精度、グラウンド化精度の3つの観点から、グラウンド化-IQAの性能を総合的に評価する。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
コード:https://github.com/zhengchen 1999/Grounding-IQA。
関連論文リスト
- Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment [57.10083003305353]
我々は,マルチモーダル大規模言語モデル(MLLM)の例外的事前知識を利用する,標準誘導型ゼロショット混合IQA法であるDog-IQAを提案する。
Dog-IQAは、MLLMの行動パターンを利用し、主観的要因の影響を最小限に抑える特定の基準で客観的に得点する。
提案したDog-IQAは,トレーニングフリー手法と比較して最先端(SOTA)性能を実現し,クロスデータセットシナリオにおけるトレーニングベース手法と比較して競合性能が向上した。
論文 参考訳(メタデータ) (2024-10-03T14:14:21Z) - Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Bringing Textual Prompt to AI-Generated Image Quality Assessment [4.230780744307392]
IP-IQA (AGIs Quality Assessment via Image and Prompt)は、AGIQAのマルチモーダルフレームワークである。
また、新規な特別な[QA]トークンとともに、効果的で効率的なイメージプロンプト融合モジュールも適用した。
実験により,我々のIP-IQAがAGIQA-1kおよびAGIQA-3kデータセットの最先端化を実現していることが示された。
論文 参考訳(メタデータ) (2024-03-27T16:02:00Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous
Driving Datasets using Markup Annotations [0.6827423171182154]
VQA(Visual Question Answering)は、自動運転において最も重要なタスクの1つである。
本稿では,QAをマークアップ内に囲む新しいデータセットアノテーション手法を提案する。
このデータセットは視覚言語モデル、特に自律運転タスクの開発を促進する。
論文 参考訳(メタデータ) (2023-12-11T12:58:54Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。