論文の概要: MANBench: Is Your Multimodal Model Smarter than Human?
- arxiv url: http://arxiv.org/abs/2506.11080v1
- Date: Wed, 04 Jun 2025 08:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.558758
- Title: MANBench: Is Your Multimodal Model Smarter than Human?
- Title(参考訳): MANBench: マルチモーダルモデルは人間より賢いか?
- Authors: Han Zhou, Qitong Xu, Yiheng Dong, Xin Yang,
- Abstract要約: 9つのタスクにわたる1,314の質問からなるバイリンガル・ベンチマーク(英語と中国語)であるMANBenchを紹介する。
我々は、最先端のマルチモーダル言語モデル(MLLM)と比較した。
その結果、MLLMは知識やテキストイメージ理解といったタスクに優れていますが、より深いモーダルな推論タスクでは苦労しています。
MANBenchは、MLLMと人間のマルチモーダル能力のギャップを埋める努力を刺激することを期待している。
- 参考スコア(独自算出の注目度): 7.483339020254684
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of Multimodal Large Language Models (MLLMs) has ignited discussions regarding their potential to surpass human performance in multimodal tasks. In response, we introduce MANBench (Multimodal Ability Norms Benchmark), a bilingual benchmark (English and Chinese) comprising 1,314 questions across nine tasks, spanning knowledge-based and non-knowledge-based domains. MANBench emphasizes intuitive reasoning, seamless cross-modal integration, and real-world complexity, providing a rigorous evaluation framework. Through extensive human experiments involving diverse participants, we compared human performance against state-of-the-art MLLMs. The results indicate that while MLLMs excel in tasks like Knowledge and Text-Image Understanding, they struggle with deeper cross-modal reasoning tasks such as Transmorphic Understanding, Image Consistency, and Multi-image Understanding. Moreover, both humans and MLLMs face challenges in highly complex tasks like Puzzles and Spatial Imagination. MANBench highlights the strengths and limitations of MLLMs, revealing that even advanced models fall short of achieving human-level performance across many domains. We hope MANBench will inspire efforts to bridge the gap between MLLMs and human multimodal capabilities. The code and dataset are available at https://github.com/micdz/MANBench.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩は、マルチモーダルタスクにおける人的パフォーマンスを上回る可能性についての議論に火をつけている。
そこで我々は,9つのタスクにまたがる1,314の質問からなるバイリンガルベンチマークであるMANBench(Multimodal Ability Norms Benchmark)を紹介した。
MANBenchは直感的な推論、シームレスなクロスモーダル統合、現実世界の複雑さを強調し、厳密な評価フレームワークを提供する。
多様な参加者を含む広範囲な人的実験を通じて、人間のパフォーマンスを最先端のMLLMと比較した。
その結果,MLLMは知識やテキストイメージ理解といったタスクに優れる一方で,トランスモーフィック理解やイメージ一貫性,マルチイメージ理解といった,より深いクロスモーダルな推論タスクに苦慮していることが明らかとなった。
さらに、人間もMLLMも、パズルや空間的イマジネーションのような非常に複雑なタスクにおいて、課題に直面している。
MANBench氏はMLLMの強みと限界を強調し、高度なモデルでさえ、多くのドメインにわたる人間レベルのパフォーマンスを達成するには不十分であることを示した。
MANBenchは、MLLMと人間のマルチモーダル能力のギャップを埋める努力を刺激することを期待している。
コードとデータセットはhttps://github.com/micdz/MANBench.comで公開されている。
関連論文リスト
- Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。
両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。
マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文 参考訳(メタデータ) (2025-05-16T11:41:19Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。