Fugu-MT 論文翻訳(概要): II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models

論文の概要: II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2406.05862v1
Date: Sun, 9 Jun 2024 17:25:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 17:38:03.695276
Title: II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
Title（参考訳）: II-Bench: マルチモーダル大規模言語モデルのための画像意味理解ベンチマーク
Authors: Ziqiang Liu, Feiteng Fang, Xi Feng, Xinrun Du, Chenhao Zhang, Zekun Wang, Yuelin Bai, Qixuan Zhao, Liyang Fan, Chengguang Gan, Hongquan Lin, Jiaming Li, Yuansheng Ni, Haihong Wu, Yaswanth Narsupalli, Zhigang Zheng, Chengming Li, Xiping Hu, Ruifeng Xu, Xiaojun Chen, Min Yang, Jiaheng Liu, Ruibo Liu, Wenhao Huang, Ge Zhang, Shiwen Ni,
Abstract要約: マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
参考スコア（独自算出の注目度）: 49.070801221350486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancements in the development of multimodal large language models (MLLMs) have consistently led to new breakthroughs on various benchmarks. In response, numerous challenging and comprehensive benchmarks have been proposed to more accurately assess the capabilities of MLLMs. However, there is a dearth of exploration of the higher-order perceptual capabilities of MLLMs. To fill this gap, we propose the Image Implication understanding Benchmark, II-Bench, which aims to evaluate the model's higher-order perception of images. Through extensive experiments on II-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on II-Bench. The pinnacle accuracy of MLLMs attains 74.8%, whereas human accuracy averages 90%, peaking at an impressive 98%. Subsequently, MLLMs perform worse on abstract and complex images, suggesting limitations in their ability to understand high-level semantics and capture image details. Finally, it is observed that most models exhibit enhanced accuracy when image sentiment polarity hints are incorporated into the prompts. This observation underscores a notable deficiency in their inherent understanding of image sentiment. We believe that II-Bench will inspire the community to develop the next generation of MLLMs, advancing the journey towards expert artificial general intelligence (AGI). II-Bench is publicly available at https://huggingface.co/datasets/m-a-p/II-Bench.
Abstract（参考訳）: MLLM(Multimodal large language model)の開発における急速な進歩は、様々なベンチマークで新たなブレークスルーをもたらしている。これに対し、MLLMの性能をより正確に評価するために、多くの挑戦的で包括的なベンチマークが提案されている。しかし,MLLMの高次知覚能力の探索は困難である。このギャップを埋めるために,モデルによる画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。 MLLMにおける II-Bench の広範囲な実験を通じて,本研究で有意な発見が得られた。当初,II-ベンチ上でのMLLMとヒトの間には,実質的なギャップが見られた。 MLLMのピンナクル精度は74.8%、人間の精度は90%であり、印象的な98%に達する。その後、MLLMは抽象的かつ複雑な画像に対して悪化し、ハイレベルなセマンティクスを理解し、画像の詳細をキャプチャする能力の限界を示唆する。最後に、ほとんどのモデルでは、画像感性極性ヒントをプロンプトに組み込むと、精度が向上することが観察された。この観察は、イメージ感情の固有の理解において、顕著な欠如を浮き彫りにしている。我々は、II-Benchがコミュニティに次世代MLLMの開発を刺激し、専門家の汎用人工知能(AGI)への旅を進めていくと信じている。 II-Benchはhttps://huggingface.co/datasets/m-a-p/II-Benchで公開されている。

関連論文リスト

GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs [66.55945133516776]
本稿では,光学的認証画像の生成と光現象の理解という,MLLMの能力を評価する最初のベンチマークであるGOBenchを紹介する。 MLLMを用いてGOBench-Gen-1kデータセットを構築し,光学的正当性,審美的品質,インストラクション忠実度に基づいて生成した画像を評価する。本研究は,11個の著名なMLLMの光学的理解能力をテストするために,工芸的な評価手法を適用し,実験結果から,光学的生成と理解の両方において,現在のモデルが重大な課題に直面していることが示されている。
論文参考訳（メタデータ） (2025-06-01T12:46:14Z)
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。 Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Can MLLMs Understand the Deep Implication Behind Chinese Images? [29.007010549079098]
中国語画像に対するMLLMの高次知覚と理解能力を評価することを目的とした**C**hinese **I**mage **I**mplication understanding **Bench*mark, **CII-Bench**を紹介する。 CII-Benchの画像は中国のインターネットからソースされ、手動でレビューされ、それに対応する回答も手動で作成される。 CII-Benchは中国伝統文化のイメージを取り入れており、中国の伝統文化に対するモデルの理解を深く反映している。
論文参考訳（メタデータ） (2024-10-17T17:59:24Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models [57.280853324896306]
マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。 HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。 HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
論文参考訳（メタデータ） (2024-08-28T06:09:02Z)
MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。 MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文参考訳（メタデータ） (2024-04-29T09:19:05Z)
The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文参考訳（メタデータ） (2024-02-06T06:48:46Z)
AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文参考訳（メタデータ） (2024-01-16T10:58:07Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。 Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文参考訳（メタデータ） (2023-09-25T14:43:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。