Fugu-MT 論文翻訳(概要): AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception

論文の概要: AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception

arxiv url: http://arxiv.org/abs/2401.08276v1
Date: Tue, 16 Jan 2024 10:58:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 14:26:33.503497
Title: AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception
Title（参考訳）: AesBench: 画像美学の知覚に基づくマルチモーダル大言語モデルのエキスパートベンチマーク
Authors: Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang, Haoning Wu, Pengfei Chen, Yuzhe Yang, Leida Li, Weisi Lin
Abstract要約: AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
参考スコア（独自算出の注目度）: 64.25808552299905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With collective endeavors, multimodal large language models (MLLMs) are undergoing a flourishing development. However, their performances on image aesthetics perception remain indeterminate, which is highly desired in real-world applications. An obvious obstacle lies in the absence of a specific benchmark to evaluate the effectiveness of MLLMs on aesthetic perception. This blind groping may impede the further development of more advanced MLLMs with aesthetic perception capacity. To address this dilemma, we propose AesBench, an expert benchmark aiming to comprehensively evaluate the aesthetic perception capacities of MLLMs through elaborate design across dual facets. (1) We construct an Expert-labeled Aesthetics Perception Database (EAPD), which features diversified image contents and high-quality annotations provided by professional aesthetic experts. (2) We propose a set of integrative criteria to measure the aesthetic perception abilities of MLLMs from four perspectives, including Perception (AesP), Empathy (AesE), Assessment (AesA) and Interpretation (AesI). Extensive experimental results underscore that the current MLLMs only possess rudimentary aesthetic perception ability, and there is still a significant gap between MLLMs and humans. We hope this work can inspire the community to engage in deeper explorations on the aesthetic potentials of MLLMs. Source data will be available at https://github.com/yipoh/AesBench.
Abstract（参考訳）: 集団的な取り組みにより、マルチモーダル・大規模言語モデル(MLLM)は発展途上である。しかし、画像美学の知覚におけるそれらの性能はいまだ不確定であり、現実の応用において非常に望ましい。明らかな障害は、美的知覚に対するMLLMの有効性を評価するための特定のベンチマークがないことである。この目隠しは、美的知覚能力を持つより高度なMLLMのさらなる発展を妨げる可能性がある。このジレンマに対処するために,両面にわたる精巧な設計により,MLLMの審美的知覚能力の包括的評価を目的とした専門家ベンチマークAesBenchを提案する。 1) 専門的美学の専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするエキスパートラベル型美学知覚データベース(EAPD)を構築した。 2)知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。現在のMLLMは初歩的な審美的知覚能力しか持たず、MLLMと人間の間には大きなギャップがある。この研究がコミュニティに、MLLMの審美的可能性についてより深く探究することを促すことを願っている。ソースデータはhttps://github.com/yipoh/aesbenchで入手できる。

関連論文リスト

DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文参考訳（メタデータ） (2025-03-17T04:06:34Z)
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot [19.5597806965592]
本稿では,マルチモーダルLCMの推論能力を審美判断に効果的に活用する方法を検討する。 MLLMは美的推論において幻覚の傾向を示しており、主観的な意見と根拠のない芸術的解釈が特徴である。我々の研究は、人間の美的基準を真に理解し、評価し、生成できるAIシステムへの道を開いた。
論文参考訳（メタデータ） (2025-01-15T18:56:22Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価既存のMLLMでは評価が困難でありながら,評価の容易化を図るために,視覚質問応答(VQA)の特殊な形式に着目する。複数の画像を読み、理解する能力は、アクティブな知覚を可能にする上で重要な役割を担っている。
論文参考訳（メタデータ） (2024-10-07T00:16:26Z)
Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文参考訳（メタデータ） (2024-06-24T17:52:16Z)
II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models [49.070801221350486]
マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
論文参考訳（メタデータ） (2024-06-09T17:25:47Z)
AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception [74.11069437400398]
我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。 AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
論文参考訳（メタデータ） (2024-04-15T09:56:20Z)
MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception [21.60103376506254]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文参考訳（メタデータ） (2024-01-15T08:19:22Z)
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。 Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文参考訳（メタデータ） (2023-09-25T14:43:43Z)
TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。 GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文参考訳（メタデータ） (2023-08-31T17:52:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。