論文の概要: A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2403.10854v2
- Date: Wed, 10 Jul 2024 08:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 21:29:48.884104
- Title: A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment
- Title(参考訳): 画像品質評価のための多モーダル大言語モデルの総合的研究
- Authors: Tianhe Wu, Kede Ma, Jie Liang, Yujiu Yang, Lei Zhang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を経験している。
画像品質評価(IQA)のための強力でフレキシブル、解釈可能、およびテキスト駆動モデルとして機能する可能性については、まだ明らかにされていない。
- 参考スコア(独自算出の注目度): 46.55045595936298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have experienced significant advancement in visual understanding and reasoning, their potential to serve as powerful, flexible, interpretable, and text-driven models for Image Quality Assessment (IQA) remains largely unexplored. In this paper, we conduct a comprehensive and systematic study of prompting MLLMs for IQA. We first investigate nine prompting systems for MLLMs as the combinations of three standardized testing procedures in psychophysics (i.e., the single-stimulus, double-stimulus, and multiple-stimulus methods) and three popular prompting strategies in natural language processing (i.e., the standard, in-context, and chain-of-thought prompting). We then present a difficult sample selection procedure, taking into account sample diversity and uncertainty, to further challenge MLLMs equipped with the respective optimal prompting systems. We assess three open-source and one closed-source MLLMs on several visual attributes of image quality (e.g., structural and textural distortions, geometric transformations, and color differences) in both full-reference and no-reference scenarios. Experimental results show that only the closed-source GPT-4V provides a reasonable account for human perception of image quality, but is weak at discriminating fine-grained quality variations (e.g., color differences) and at comparing visual quality of multiple images, tasks humans can perform effortlessly.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を遂げてきたが、画像品質評価(IQA)のための強力で柔軟性があり、解釈可能で、テキスト駆動型モデルとして機能する可能性はほとんど研究されていない。
本稿では,IQAに対するMLLMの促進に関する包括的かつ体系的な研究を行う。
まず,心理物理学における3つの標準的なテスト手順(単一刺激法,二重刺激法,多重刺激法)と自然言語処理における3つの一般的なプロンプト戦略(標準,文脈,チェーン・オブ・シークレット・プロンプト)の組み合わせとして,MLLMの9つのプロンプトシステムについて検討した。
次に,サンプルの多様性と不確実性を考慮に入れたサンプル選択手法を提案し,それぞれに最適なプロンプトシステムを備えたMLLMに挑戦する。
本研究では,3つのオープンソースMLLMと1つのクローズドソースMLLMを,画像品質の視覚的特性(構造的およびテクスチュラルな歪み,幾何学的変換,色差)を,全参照シナリオと非参照シナリオの両方で評価する。
実験結果から, クローズドソース GPT-4V は, 画像品質に対する人間の認識に妥当な指標となるが, きめ細かな品質変化(色差など)を識別し, 複数画像の視覚的品質を比較する際には, 人間の努力を伴わないことが示唆された。
関連論文リスト
- Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。