論文の概要: Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2503.06141v1
- Date: Sat, 08 Mar 2025 09:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:21.480510
- Title: Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルによるリアルな画像品質と美的装飾
- Authors: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu,
- Abstract要約: 大言語モデル(MLLM)は、画像品質評価(IQA)と画像審美評価(IAA)に大きな可能性を示している。
本稿では、RealQA(RealQA)と呼ばれる新しいデータセットについて紹介する。
これらの属性は、低レベル(例えば、画像の明瞭度)、中レベル(例えば、主観的完全性)、高レベル(例えば、構成)の3つのレベルにまたがる。
驚くべきことに、2つの重要な桁だけを予測することで、次のトークンパラダイムはSOTAのパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 19.2881640541533
- License:
- Abstract: The rapid expansion of mobile internet has resulted in a substantial increase in user-generated content (UGC) images, thereby making the thorough assessment of UGC images both urgent and essential. Recently, multimodal large language models (MLLMs) have shown great potential in image quality assessment (IQA) and image aesthetic assessment (IAA). Despite this progress, effectively scoring the quality and aesthetics of UGC images still faces two main challenges: 1) A single score is inadequate to capture the hierarchical human perception. 2) How to use MLLMs to output numerical scores, such as mean opinion scores (MOS), remains an open question. To address these challenges, we introduce a novel dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715 UGC images, each of which is annoted with 10 fine-grained attributes. These attributes span three levels: low level (e.g., image clarity), middle level (e.g., subject integrity) and high level (e.g., composition). Besides, we conduct a series of in-depth and comprehensive investigations into how to effectively predict numerical scores using MLLMs. Surprisingly, by predicting just two extra significant digits, the next token paradigm can achieve SOTA performance. Furthermore, with the help of chain of thought (CoT) combined with the learnt fine-grained attributes, the proposed method can outperform SOTA methods on five public datasets for IQA and IAA with superior interpretability and show strong zero-shot generalization for video quality assessment (VQA). The code and dataset will be released.
- Abstract(参考訳): モバイルインターネットの急速な拡大は、ユーザ生成コンテンツ(UGC)画像の大幅な増加をもたらし、UGC画像の徹底的な評価を急務かつ必要不可欠なものにしている。
近年,マルチモーダル大規模言語モデル (MLLM) は画像品質評価 (IQA) や画像美学評価 (IAA) において大きな可能性を示している。
この進歩にもかかわらず、UGC画像の品質と美学を効果的に評価することは、2つの大きな課題に直面している。
1) 単一スコアは階層的人間の知覚を捉えるのに不十分である。
2)MLLMを用いて平均世論スコア(MOS)などの数値スコアを出力する方法は未解決の問題である。
これらの課題に対処するために,14,715個のUGC画像を含むRealQA(Realistic Image Quality and Aesthetic)という新しいデータセットを導入した。
これらの属性は、低レベル(eg、画像の明瞭度)、中レベル(eg、主観的完全性)、高レベル(eg、合成)の3つのレベルにまたがる。
さらに,MLLMを用いて数値スコアを効果的に予測する方法について,詳細および包括的調査を行った。
驚くべきことに、2つの重要な桁だけを予測することで、次のトークンパラダイムはSOTAのパフォーマンスを達成することができる。
さらに、学習した微粒な属性と組み合わせた思考の連鎖(CoT)の助けを借りて、IQAとIAAの5つの公開データセット上でSOTA法より優れた解釈性を示し、ビデオ品質評価(VQA)のための強力なゼロショット一般化を示すことができる。
コードとデータセットがリリースされる。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [23.48816491333345]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。
本研究では,2つのタスクの一般的な認識を学習するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文 参考訳(メタデータ) (2024-06-03T07:40:10Z) - Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - AIGCOIQA2024: Perceptual Quality Assessment of AI Generated Omnidirectional Images [70.42666704072964]
我々はAI生成の全方位画像IQAデータベースAIIGCOIQA2024を構築した。
3つの視点から人間の視覚的嗜好を評価するために、主観的IQA実験を行った。
我々は,データベース上での最先端IQAモデルの性能を評価するためのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-04-01T10:08:23Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Re-IQA: Unsupervised Learning for Image Quality Assessment in the Wild [38.197794061203055]
教師なし環境で高レベルのコンテンツと低レベルの画像品質特徴を学習するために、2つの異なるエンコーダを訓練するためのMixture of Expertsアプローチを提案する。
本稿では,Re-IQAフレームワークから得られた高次・低次画像表現を,線形回帰モデルをトレーニングするために展開する。
本手法は,大規模画像品質評価データベース上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-02T05:06:51Z) - MANIQA: Multi-dimension Attention Network for No-Reference Image Quality
Assessment [18.637040004248796]
No-Reference Image Quality Assessment (NR-IQA) は、人間の主観的知覚に応じて画像の知覚品質を評価することを目的としている。
既存のNR-IQA法は、GANに基づく歪み画像の正確な品質スコアを予測する必要性を満たすには程遠い。
本稿では,非参照画像品質評価(MANIQA)のための多次元注意ネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-19T15:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。