論文の概要: IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models
- arxiv url: http://arxiv.org/abs/2312.15663v1
- Date: Mon, 25 Dec 2023 09:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:04:20.523825
- Title: IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models
- Title(参考訳): IQAGPT:視覚言語とチャットGPTモデルによる画像品質評価
- Authors: Zhihao Chen, Bin Hu, Chuang Niu, Tao Chen, Yuxin Li, Hongming Shan, Ge
Wang
- Abstract要約: 本稿では,画像品質評価システムIQAGPTを紹介する。
トレーニングと評価のためのCT-IQAデータセットを構築した。
LLMの能力をよりよく活用するために、アノテートされた品質スコアをプロンプトテンプレートを用いて意味的にリッチなテキスト記述に変換する。
- 参考スコア(独自算出の注目度): 23.99102775778499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as ChatGPT, have demonstrated impressive
capabilities in various tasks and attracted an increasing interest as a natural
language interface across many domains. Recently, large vision-language models
(VLMs) like BLIP-2 and GPT-4 have been intensively investigated, which learn
rich vision-language correlation from image-text pairs. However, despite these
developments, the application of LLMs and VLMs in image quality assessment
(IQA), particularly in medical imaging, remains to be explored, which is
valuable for objective performance evaluation and potential supplement or even
replacement of radiologists' opinions. To this end, this paper introduces
IQAGPT, an innovative image quality assessment system integrating an image
quality captioning VLM with ChatGPT for generating quality scores and textual
reports. First, we build a CT-IQA dataset for training and evaluation,
comprising 1,000 CT slices with diverse quality levels professionally
annotated. To better leverage the capabilities of LLMs, we convert annotated
quality scores into semantically rich text descriptions using a prompt
template. Second, we fine-tune the image quality captioning VLM on the CT-IQA
dataset to generate quality descriptions. The captioning model fuses the image
and text features through cross-modal attention. Third, based on the quality
descriptions, users can talk with ChatGPT to rate image quality scores or
produce a radiological quality report. Our preliminary results demonstrate the
feasibility of assessing image quality with large models. Remarkably, our
IQAGPT outperforms GPT-4 and CLIP-IQA, as well as the multi-task classification
and regression models that solely rely on images.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示し、多くのドメインで自然言語インターフェースとして関心を集めている。
近年,BLIP-2 や GPT-4 のような大規模視覚言語モデル (VLM) が盛んに研究され,画像とテキストのペアからリッチな視覚言語相関を学習している。
しかし、これらの進展にもかかわらず、特に医用画像における画質評価(iqa)におけるllmsとvlmsの応用は、客観的な性能評価や放射線科医の意見の補足、さらには代替に有用である。
そこで本研究では,画像品質評価システムであるIQAGPTを紹介し,品質スコアとテキストレポートを生成するために,画像品質キャプションVLMとChatGPTを統合した。
まず,訓練と評価のためのct-iqaデータセットを構築し,さまざまな品質レベルを専門的にアノテートした1,000のctスライスを作成した。
LLMの能力をよりよく活用するために、アノテートされた品質スコアをプロンプトテンプレートを用いて意味的にリッチなテキスト記述に変換する。
次に、CT-IQAデータセット上の画像品質キャプションVLMを微調整し、品質記述を生成する。
キャプションモデルは、画像とテキストの特徴を横断的注意を通して融合する。
第3に、品質記述に基づいて、ユーザーはChatGPTと話し、画像の品質スコアを評価したり、無線品質レポートを作成することができる。
予備実験の結果,大規模モデルによる画質評価が可能となった。
我々のIQAGPTはGPT-4やCLIP-IQAよりも優れており、画像のみに依存するマルチタスク分類や回帰モデルも優れている。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment [20.851102845794244]
画像品質評価(IQA)の開発には品質評価属性に関する高レベル知識の蒸留が不可欠である
自己監督・視線監督画像QUality Evaluator (SLIQUE) と呼ばれる新しいブラインドIQA(BIQA)モデルを提案する。
SLIQUEは、画像意味内容、歪み特性およびIQAの外観特性に関する高度な知識を得るための、視覚言語と視覚コントラスト表現学習フレームワークである。
論文 参考訳(メタデータ) (2024-06-14T09:18:28Z) - Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Dual-Branch Network for Portrait Image Quality Assessment [76.27716058987251]
ポートレート画像品質評価のためのデュアルブランチネットワーク(PIQA)を提案する。
我々は2つのバックボーンネットワーク(textiti.e., Swin Transformer-B)を使用して、肖像画全体と顔画像から高品質な特徴を抽出する。
我々は、画像シーンの分類と品質評価モデルであるLIQEを利用して、品質認識とシーン固有の特徴を補助的特徴として捉えている。
論文 参考訳(メタデータ) (2024-05-14T12:43:43Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation
with Visual Large Language Models [17.67105465600566]
本稿では,X-IQEと呼ばれる新しい画像品質評価手法を提案する。
X-IQEは、視覚的大言語モデル(LLM)を使用して、テキストによる説明を生成することによって、テキストから画像への生成方法を評価する。
実際の画像と生成された画像を区別し、テキスト画像のアライメントを評価し、モデルトレーニングや微調整を必要とせずに画像の美学を評価する機能など、いくつかの利点がある。
論文 参考訳(メタデータ) (2023-05-18T09:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。