論文の概要: AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception
- arxiv url: http://arxiv.org/abs/2401.08276v1
- Date: Tue, 16 Jan 2024 10:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:26:33.503497
- Title: AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception
- Title(参考訳): AesBench: 画像美学の知覚に基づくマルチモーダル大言語モデルのエキスパートベンチマーク
- Authors: Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang, Haoning Wu,
Pengfei Chen, Yuzhe Yang, Leida Li, Weisi Lin
- Abstract要約: AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
- 参考スコア(独自算出の注目度): 64.25808552299905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With collective endeavors, multimodal large language models (MLLMs) are
undergoing a flourishing development. However, their performances on image
aesthetics perception remain indeterminate, which is highly desired in
real-world applications. An obvious obstacle lies in the absence of a specific
benchmark to evaluate the effectiveness of MLLMs on aesthetic perception. This
blind groping may impede the further development of more advanced MLLMs with
aesthetic perception capacity. To address this dilemma, we propose AesBench, an
expert benchmark aiming to comprehensively evaluate the aesthetic perception
capacities of MLLMs through elaborate design across dual facets. (1) We
construct an Expert-labeled Aesthetics Perception Database (EAPD), which
features diversified image contents and high-quality annotations provided by
professional aesthetic experts. (2) We propose a set of integrative criteria to
measure the aesthetic perception abilities of MLLMs from four perspectives,
including Perception (AesP), Empathy (AesE), Assessment (AesA) and
Interpretation (AesI). Extensive experimental results underscore that the
current MLLMs only possess rudimentary aesthetic perception ability, and there
is still a significant gap between MLLMs and humans. We hope this work can
inspire the community to engage in deeper explorations on the aesthetic
potentials of MLLMs. Source data will be available at
https://github.com/yipoh/AesBench.
- Abstract(参考訳): 集団的な取り組みにより、マルチモーダル・大規模言語モデル(MLLM)は発展途上である。
しかし、画像美学の知覚におけるそれらの性能はいまだ不確定であり、現実の応用において非常に望ましい。
明らかな障害は、美的知覚に対するMLLMの有効性を評価するための特定のベンチマークがないことである。
この目隠しは、美的知覚能力を持つより高度なMLLMのさらなる発展を妨げる可能性がある。
このジレンマに対処するために,両面にわたる精巧な設計により,MLLMの審美的知覚能力の包括的評価を目的とした専門家ベンチマークAesBenchを提案する。
1) 専門的美学の専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするエキスパートラベル型美学知覚データベース(EAPD)を構築した。
2)知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
現在のMLLMは初歩的な審美的知覚能力しか持たず、MLLMと人間の間には大きなギャップがある。
この研究がコミュニティに、MLLMの審美的可能性についてより深く探究することを促すことを願っている。
ソースデータはhttps://github.com/yipoh/aesbenchで入手できる。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価
既存のMLLMでは評価が困難でありながら,評価の容易化を図るために,視覚質問応答(VQA)の特殊な形式に着目する。
複数の画像を読み、理解する能力は、アクティブな知覚を可能にする上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-10-07T00:16:26Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models [49.070801221350486]
マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。
本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-09T17:25:47Z) - AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception [74.11069437400398]
我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。
AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。
実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
論文 参考訳(メタデータ) (2024-04-15T09:56:20Z) - MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception [21.60103376506254]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文 参考訳(メタデータ) (2024-01-15T08:19:22Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。