論文の概要: II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2406.05862v1
- Date: Sun, 9 Jun 2024 17:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:38:03.695276
- Title: II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
- Title(参考訳): II-Bench: マルチモーダル大規模言語モデルのための画像意味理解ベンチマーク
- Authors: Ziqiang Liu, Feiteng Fang, Xi Feng, Xinrun Du, Chenhao Zhang, Zekun Wang, Yuelin Bai, Qixuan Zhao, Liyang Fan, Chengguang Gan, Hongquan Lin, Jiaming Li, Yuansheng Ni, Haihong Wu, Yaswanth Narsupalli, Zhigang Zheng, Chengming Li, Xiping Hu, Ruifeng Xu, Xiaojun Chen, Min Yang, Jiaheng Liu, Ruibo Liu, Wenhao Huang, Ge Zhang, Shiwen Ni,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。
本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
- 参考スコア(独自算出の注目度): 49.070801221350486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in the development of multimodal large language models (MLLMs) have consistently led to new breakthroughs on various benchmarks. In response, numerous challenging and comprehensive benchmarks have been proposed to more accurately assess the capabilities of MLLMs. However, there is a dearth of exploration of the higher-order perceptual capabilities of MLLMs. To fill this gap, we propose the Image Implication understanding Benchmark, II-Bench, which aims to evaluate the model's higher-order perception of images. Through extensive experiments on II-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on II-Bench. The pinnacle accuracy of MLLMs attains 74.8%, whereas human accuracy averages 90%, peaking at an impressive 98%. Subsequently, MLLMs perform worse on abstract and complex images, suggesting limitations in their ability to understand high-level semantics and capture image details. Finally, it is observed that most models exhibit enhanced accuracy when image sentiment polarity hints are incorporated into the prompts. This observation underscores a notable deficiency in their inherent understanding of image sentiment. We believe that II-Bench will inspire the community to develop the next generation of MLLMs, advancing the journey towards expert artificial general intelligence (AGI). II-Bench is publicly available at https://huggingface.co/datasets/m-a-p/II-Bench.
- Abstract(参考訳): MLLM(Multimodal large language model)の開発における急速な進歩は、様々なベンチマークで新たなブレークスルーをもたらしている。
これに対し、MLLMの性能をより正確に評価するために、多くの挑戦的で包括的なベンチマークが提案されている。
しかし,MLLMの高次知覚能力の探索は困難である。
このギャップを埋めるために,モデルによる画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
MLLMにおける II-Bench の広範囲な実験を通じて,本研究で有意な発見が得られた。
当初,II-ベンチ上でのMLLMとヒトの間には,実質的なギャップが見られた。
MLLMのピンナクル精度は74.8%、人間の精度は90%であり、印象的な98%に達する。
その後、MLLMは抽象的かつ複雑な画像に対して悪化し、ハイレベルなセマンティクスを理解し、画像の詳細をキャプチャする能力の限界を示唆する。
最後に、ほとんどのモデルでは、画像感性極性ヒントをプロンプトに組み込むと、精度が向上することが観察された。
この観察は、イメージ感情の固有の理解において、顕著な欠如を浮き彫りにしている。
我々は、II-Benchがコミュニティに次世代MLLMの開発を刺激し、専門家の汎用人工知能(AGI)への旅を進めていくと信じている。
II-Benchはhttps://huggingface.co/datasets/m-a-p/II-Benchで公開されている。
関連論文リスト
- MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
MIBenchは、マルチイメージ・インストラクション(MII)、マルチモーダル・ナレッジ・シーキング(MKS)、マルチモーダル・イン・コンテクスト・ラーニング(MIC)の3つのシナリオに分類し、13のタスクを合計13Kの注釈付きサンプルで構成する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。
MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。
その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:19:05Z) - The Instinctive Bias: Spurious Images lead to Hallucination in MLLMs [36.42188183017291]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
この効果を定量的に評価するために,スプリアス画像の幻覚レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。