論文の概要: II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2406.05862v1
- Date: Sun, 9 Jun 2024 17:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:38:03.695276
- Title: II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
- Title(参考訳): II-Bench: マルチモーダル大規模言語モデルのための画像意味理解ベンチマーク
- Authors: Ziqiang Liu, Feiteng Fang, Xi Feng, Xinrun Du, Chenhao Zhang, Zekun Wang, Yuelin Bai, Qixuan Zhao, Liyang Fan, Chengguang Gan, Hongquan Lin, Jiaming Li, Yuansheng Ni, Haihong Wu, Yaswanth Narsupalli, Zhigang Zheng, Chengming Li, Xiping Hu, Ruifeng Xu, Xiaojun Chen, Min Yang, Jiaheng Liu, Ruibo Liu, Wenhao Huang, Ge Zhang, Shiwen Ni,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。
本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
- 参考スコア(独自算出の注目度): 49.070801221350486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in the development of multimodal large language models (MLLMs) have consistently led to new breakthroughs on various benchmarks. In response, numerous challenging and comprehensive benchmarks have been proposed to more accurately assess the capabilities of MLLMs. However, there is a dearth of exploration of the higher-order perceptual capabilities of MLLMs. To fill this gap, we propose the Image Implication understanding Benchmark, II-Bench, which aims to evaluate the model's higher-order perception of images. Through extensive experiments on II-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on II-Bench. The pinnacle accuracy of MLLMs attains 74.8%, whereas human accuracy averages 90%, peaking at an impressive 98%. Subsequently, MLLMs perform worse on abstract and complex images, suggesting limitations in their ability to understand high-level semantics and capture image details. Finally, it is observed that most models exhibit enhanced accuracy when image sentiment polarity hints are incorporated into the prompts. This observation underscores a notable deficiency in their inherent understanding of image sentiment. We believe that II-Bench will inspire the community to develop the next generation of MLLMs, advancing the journey towards expert artificial general intelligence (AGI). II-Bench is publicly available at https://huggingface.co/datasets/m-a-p/II-Bench.
- Abstract(参考訳): MLLM(Multimodal large language model)の開発における急速な進歩は、様々なベンチマークで新たなブレークスルーをもたらしている。
これに対し、MLLMの性能をより正確に評価するために、多くの挑戦的で包括的なベンチマークが提案されている。
しかし,MLLMの高次知覚能力の探索は困難である。
このギャップを埋めるために,モデルによる画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
MLLMにおける II-Bench の広範囲な実験を通じて,本研究で有意な発見が得られた。
当初,II-ベンチ上でのMLLMとヒトの間には,実質的なギャップが見られた。
MLLMのピンナクル精度は74.8%、人間の精度は90%であり、印象的な98%に達する。
その後、MLLMは抽象的かつ複雑な画像に対して悪化し、ハイレベルなセマンティクスを理解し、画像の詳細をキャプチャする能力の限界を示唆する。
最後に、ほとんどのモデルでは、画像感性極性ヒントをプロンプトに組み込むと、精度が向上することが観察された。
この観察は、イメージ感情の固有の理解において、顕著な欠如を浮き彫りにしている。
我々は、II-Benchがコミュニティに次世代MLLMの開発を刺激し、専門家の汎用人工知能(AGI)への旅を進めていくと信じている。
II-Benchはhttps://huggingface.co/datasets/m-a-p/II-Benchで公開されている。
関連論文リスト
- Can MLLMs Understand the Deep Implication Behind Chinese Images? [29.007010549079098]
中国語画像に対するMLLMの高次知覚と理解能力を評価することを目的とした**C**hinese **I**mage **I**mplication understanding **Bench*mark, **CII-Bench**を紹介する。
CII-Benchの画像は中国のインターネットからソースされ、手動でレビューされ、それに対応する回答も手動で作成される。
CII-Benchは中国伝統文化のイメージを取り入れており、中国の伝統文化に対するモデルの理解を深く反映している。
論文 参考訳(メタデータ) (2024-10-17T17:59:24Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models [57.280853324896306]
マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。
HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。
HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
論文 参考訳(メタデータ) (2024-08-28T06:09:02Z) - MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。
MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。
その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:19:05Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。