論文の概要: VisualCritic: Making LMMs Perceive Visual Quality Like Humans
- arxiv url: http://arxiv.org/abs/2403.12806v1
- Date: Tue, 19 Mar 2024 15:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:44:06.802171
- Title: VisualCritic: Making LMMs Perceive Visual Quality Like Humans
- Title(参考訳): VisualCritic:LMMは人間のように視覚的品質を知覚する
- Authors: Zhipeng Huang, Zhizheng Zhang, Yiting Lu, Zheng-Jun Zha, Zhibo Chen, Baining Guo,
- Abstract要約: 広視野画像の主観的品質評価のための最初のLMMであるVisualCriticを提案する。
VisualCriticは、データセット固有の適応操作を必要とせずに、最初からさまざまなデータにまたがって使用することができる。
- 参考スコア(独自算出の注目度): 65.59779450136399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At present, large multimodal models (LMMs) have exhibited impressive generalization capabilities in understanding and generating visual signals. However, they currently still lack sufficient capability to perceive low-level visual quality akin to human perception. Can LMMs achieve this and show the same degree of generalization in this regard? If so, not only could the versatility of LMMs be further enhanced, but also the challenge of poor cross-dataset performance in the field of visual quality assessment could be addressed. In this paper, we explore this question and provide the answer "Yes!". As the result of this initial exploration, we present VisualCritic, the first LMM for broad-spectrum image subjective quality assessment. VisualCritic can be used across diverse data right out of box, without any requirements of dataset-specific adaptation operations like conventional specialist models. As an instruction-following LMM, VisualCritic enables new capabilities of (1) quantitatively measuring the perceptual quality of given images in terms of their Mean Opinion Score (MOS), noisiness, colorfulness, sharpness, and other numerical indicators, (2) qualitatively evaluating visual quality and providing explainable descriptions, (3) discerning whether a given image is AI-generated or photographic. Extensive experiments demonstrate the efficacy of VisualCritic by comparing it with other open-source LMMs and conventional specialist models over both AI-generated and photographic images.
- Abstract(参考訳): 現在,大規模マルチモーダルモデル (LMM) は視覚信号の理解と生成に優れた一般化能力を発揮している。
しかし、現時点では人間の知覚に類似した低レベルの視覚的品質を知覚する能力が不足している。
LMMは、これを達成し、この点において同様の一般化の度合いを示すことができるか?
もしそうなら、LMMの汎用性をさらに向上できるだけでなく、視覚的品質評価の分野では、データセット間のパフォーマンスが劣るという課題にも対処できるだろう。
本稿では,この問題について考察し,「はい!」と答える。
この最初の調査の結果、広帯域画像の主観的品質評価のための最初のLMMであるVisualCriticを提示した。
VisualCriticは、従来のスペシャリストモデルのようなデータセット固有の適応操作を必要とせずに、最初からさまざまなデータにわたって使用することができる。
命令追従型LMMでは,(1)平均オピニオンスコア(MOS),ノイズ,カラフル,シャープ,その他の数値指標を用いて画像の知覚品質を定量的に測定し,(2)視覚的品質を質的に評価し,説明可能な説明を提供する,(3)AI生成か写真撮影かを識別する,新たな機能を実現する。
大規模な実験では、AI生成画像と写真画像の両方に対して、他のオープンソースLMMや従来のスペシャリストモデルと比較することで、VisualCriticの有効性を実証している。
関連論文リスト
- Mitigating Perception Bias: A Training-Free Approach to Enhance LMM for Image Quality Assessment [18.622560025505233]
画像品質評価のためのトレーニング不要な脱バイアスフレームワークを提案する。
まず,画像品質を著しく劣化させる意味保存歪みについて検討する。
次に、これらの特定の歪みをクエリやテストイメージに適用します。
品質推測の間、クエリ画像とそれに対応する劣化バージョンの両方をLMMに供給する。
劣化した画像は、セマンティックな違いに関わらず、常に品質が劣っていると評価される。
論文 参考訳(メタデータ) (2024-11-19T15:00:59Z) - Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models [31.47100708645748]
近年,LMM (Large Multimodal Models) の開発が進んでいる。
我々はComBoと呼ばれる複合ブロックをベースとした新しい、挑戦的で効率的なベンチマークを提案し、このベンチマークは不整合評価フレームワークを提供する。
LMMは、新しいカテゴリーを学習する際に許容できる一般化能力を示すが、多くの点で人間に比べてまだギャップがある。
論文 参考訳(メタデータ) (2024-09-03T02:55:36Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - 2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文 参考訳(メタデータ) (2024-02-02T06:05:18Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。