論文の概要: 2AFC Prompting of Large Multimodal Models for Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2402.01162v1
- Date: Fri, 2 Feb 2024 06:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:37:21.936752
- Title: 2AFC Prompting of Large Multimodal Models for Image Quality Assessment
- Title(参考訳): 2afc 画質評価のための大規模マルチモーダルモデルの提案
- Authors: Hanwei Zhu, Xiangjie Sui, Baoliang Chen, Xuelin Liu, Peilin Chen,
Yuming Fang, and Shiqi Wang
- Abstract要約: 2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
- 参考スコア(独自算出の注目度): 38.86162365208038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While abundant research has been conducted on improving high-level visual
understanding and reasoning capabilities of large multimodal models~(LMMs),
their visual quality assessment~(IQA) ability has been relatively
under-explored. Here we take initial steps towards this goal by employing the
two-alternative forced choice~(2AFC) prompting, as 2AFC is widely regarded as
the most reliable way of collecting human opinions of visual quality.
Subsequently, the global quality score of each image estimated by a particular
LMM can be efficiently aggregated using the maximum a posterior estimation.
Meanwhile, we introduce three evaluation criteria: consistency, accuracy, and
correlation, to provide comprehensive quantifications and deeper insights into
the IQA capability of five LMMs. Extensive experiments show that existing LMMs
exhibit remarkable IQA ability on coarse-grained quality comparison, but there
is room for improvement on fine-grained quality discrimination. The proposed
dataset sheds light on the future development of IQA models based on LMMs. The
codes will be made publicly available at https://github.com/h4nwei/2AFC-LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル(lmms)の高レベルな視覚理解と推論能力の改善に関する研究が盛んに行われているが、その視覚品質評価(iqa)能力は比較的過小評価されている。
ここでは,2AFCが視覚的品質の人的意見を集める最も信頼性の高い方法として広く見なされていることから,この目標に向かって第一歩を踏み出した。
その後、特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
一方,我々は,一貫性,正確性,相関性という3つの評価基準を導入して,5つのlmmのica能力に関する総合的な定量化と深い洞察を提供する。
大規模実験により, 既存のLMMは粗粒度比較に優れたIQA能力を示すことが示されたが, 微粒度判別には改善の余地がある。
提案したデータセットは,LMMに基づくIQAモデルの開発に光を当てている。
コードはhttps://github.com/h4nwei/2AFC-LMMsで公開される。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - LMM-PCQA: Assisting Point Cloud Quality Assessment with LMM [83.98966702271576]
本研究の目的は,大規模マルチモダリティモデル(LMM)に対するポイントクラウド品質評価(PCQA)の知識付与の可能性を検討することである。
品質ラベルを微調整段階のテキスト記述に変換することにより、LMMは点雲の2次元投影から品質評価ロジットを導出することができる。
提案手法の有効性を実証し,PCQAへのLMMの新たな統合を実証した。
論文 参考訳(メタデータ) (2024-04-28T14:47:09Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。