論文の概要: MAC: A Live Benchmark for Multimodal Large Language Models in Scientific Understanding
- arxiv url: http://arxiv.org/abs/2508.15802v1
- Date: Thu, 14 Aug 2025 01:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.545376
- Title: MAC: A Live Benchmark for Multimodal Large Language Models in Scientific Understanding
- Title(参考訳): MAC: 科学的理解のためのマルチモーダル大規模言語モデルのライブベンチマーク
- Authors: Mohan Jiang, Jin Gao, Jiahao Zhan, Dequan Wang,
- Abstract要約: 我々は,科学的な進歩とモデル進歩を伴って進化するライブベンチマークであるMultimodal Academic Coverベンチマーク(MAC)を紹介した。
MACは、Nature、Science、Cellといったトップレベルの科学雑誌から得られた25,000以上の画像テキストペアを活用している。
言語空間推論による視覚的特徴の拡張によりMLLMを強化する軽量な推論時間アプローチであるDADを提案する。
- 参考スコア(独自算出の注目度): 21.573081580990976
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As multimodal large language models (MLLMs) grow increasingly capable, fixed benchmarks are gradually losing their effectiveness in evaluating high-level scientific understanding. In this paper, we introduce the Multimodal Academic Cover benchmark (MAC), a live benchmark that could continuously evolve with scientific advancement and model progress. MAC leverages over 25,000 image-text pairs sourced from issues of top-tier scientific journals such as Nature, Science, and Cell, challenging MLLMs to reason across abstract visual and textual scientific content. Experiments on our most recent yearly snapshot, MAC-2025, reveal that while MLLMs demonstrate strong perceptual abilities, their cross-modal scientific reasoning remains limited. To bridge this gap, we propose DAD, a lightweight inference-time approach that enhances MLLMs by extending MLLM visual features with language space reasoning, achieving performance improvements of up to 11%. Finally, we highlight the live nature of MAC through experiments on updating journal covers and models for curation, illustrating its potential to remain aligned with the frontier of human knowledge. We release our benchmark at https://github.com/mhjiang0408/MAC_Bench.
- Abstract(参考訳): MLLM(Multimodal large language model)の能力が増大するにつれて、固定ベンチマークは、ハイレベルな科学的理解を評価する上での有効性を徐々に失っている。
本稿では,科学的な進歩とモデル進歩によって継続的に進化する実効ベンチマークであるMultimodal Academic Coverベンチマーク(MAC)を紹介する。
MACは、Nature、Science、Cellといった最上位の科学雑誌から得られた25,000以上の画像テキストペアを活用し、抽象的な視覚的およびテキスト的科学コンテンツを解析するためにMLLMに挑戦する。
最新のスナップショットであるMAC-2025での実験では、MLLMは知覚能力が強いが、その横断的な科学的推論は限定的であることが示された。
このギャップを埋めるため,MLLMの視覚的特徴を言語空間推論で拡張し,最大11%の性能向上を実現する軽量な推論時間アプローチであるDADを提案する。
最後に,ヒトの知識のフロンティアとの整合性を維持する可能性を示すために,論文の表紙とモデルの更新実験を通じてMACの生きた性質を強調した。
ベンチマークはhttps://github.com/mhjiang0408/MAC_Bench.comで公開しています。
関連論文リスト
- Multimodal Large Language Models for End-to-End Affective Computing: Benchmarking and Boosting with Generative Knowledge Prompting [11.297069638670749]
マルチモーダル・アフェクティブ・コンピューティング(Multimodal Affective Computing)は、テキスト、ビデオ、オーディオなどの様々なモダリティからの情報を統合することで、人間の感情を認識し、解釈することを目的としている。
MLLM(Multimodal Large Language Models)の最近の進歩はMACの景観を大きく変えている。
我々は、音声、視覚、テキストのモーダルを同時に処理できる最先端のオープンソースMLLMのベンチマーク評価を行う。
本稿では,MLLMの感情計算能力を高めるために,ジェネレーティブな知識と教師付き微調整を組み合わせた新しいハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2025-08-04T13:49:03Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。