論文の概要: MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams
- arxiv url: http://arxiv.org/abs/2508.06851v1
- Date: Sat, 09 Aug 2025 06:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.581424
- Title: MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams
- Title(参考訳): MDK12-Bench:マルチディシプリナ・エグゼムを用いたマルチモーダル大言語モデルの総合的評価
- Authors: Pengfei Zhou, Xiaopeng Peng, Fanrui Zhang, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Zekai Li, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang,
- Abstract要約: MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
- 参考スコア(独自算出の注目度): 50.293164501645975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs), which integrate language and visual cues for problem-solving, are crucial for advancing artificial general intelligence (AGI). However, current benchmarks for measuring the intelligence of MLLMs suffer from limited scale, narrow coverage, and unstructured knowledge, offering only static and undifferentiated evaluations. To bridge this gap, we introduce MDK12-Bench, a large-scale multidisciplinary benchmark built from real-world K-12 exams spanning six disciplines with 141K instances and 6,225 knowledge points organized in a six-layer taxonomy. Covering five question formats with difficulty and year annotations, it enables comprehensive evaluation to capture the extent to which MLLMs perform over four dimensions: 1) difficulty levels, 2) temporal (cross-year) shifts, 3) contextual shifts, and 4) knowledge-driven reasoning. We propose a novel dynamic evaluation framework that introduces unfamiliar visual, textual, and question form shifts to challenge model generalization while improving benchmark objectivity and longevity by mitigating data contamination. We further evaluate knowledge-point reference-augmented generation (KP-RAG) to examine the role of knowledge in problem-solving. Key findings reveal limitations in current MLLMs in multiple aspects and provide guidance for enhancing model robustness, interpretability, and AI-assisted education.
- Abstract(参考訳): 言語と視覚を融合した多モーダル大規模言語モデル(MLLM)は,人工知能(AGI)の進歩に不可欠である。
しかしながら、MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされており、静的で未分化な評価のみを提供する。
このギャップを埋めるために、MDK12-Benchを紹介します。これは、6層分類で組織された141Kインスタンスと6,225の知識ポイントを持つ6つの分野にまたがる実世界のK-12試験から構築された大規模なマルチディシプリナベンチマークです。
難易度と年次アノテーションを持つ5つの質問形式をカバーし、MLLMが4次元にわたって実行する範囲を包括的に評価することができる。
1)難易度,難易度
2)時間的(年内)シフト
3)文脈シフト,および
4)知識駆動推論。
本稿では,不慣れな視覚的,テキスト的,質問形式のシフトを導入し,データ汚染を軽減し,ベンチマークの客観性と長寿命性を改善しつつ,モデルの一般化に挑戦する動的評価フレームワークを提案する。
さらに,知識ポイント参照向上世代(KP-RAG)を評価し,問題解決における知識の役割について検討する。
鍵となる発見は、複数の面で現在のMLLMの制限を明らかにし、モデルの堅牢性、解釈可能性、AI支援教育を強化するためのガイダンスを提供する。
関連論文リスト
- Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark [0.0]
フレーム問題とシンボルグラウンド問題(英語版)は歴史的に、伝統的なシンボルAIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
論文 参考訳(メタデータ) (2025-06-09T16:12:47Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - Exploring and Evaluating Multimodal Knowledge Reasoning Consistency of Multimodal Large Language Models [52.569132872560814]
マルチモーダルな大言語モデル(MLLM)は、テキストとビジョンの理解を深め、大きなブレークスルーを達成した。
しかし、現在のMLLMは、マルチモーダルな知識推論において、これらのモダリティを効果的に統合する上での課題に直面している。
MLLMにおけるマルチモーダル知識推論における一貫性劣化の程度を解析・比較する。
論文 参考訳(メタデータ) (2025-03-03T09:01:51Z) - When Continue Learning Meets Multimodal Large Language Model: A Survey [7.250878248686215]
特定のタスクに対する微調整MLLMは、しばしばモデルの事前知識領域のパフォーマンス低下を引き起こす。
本報告では,本領域における440件の研究論文の概要と分析について述べる。
論文 参考訳(メタデータ) (2025-02-27T03:39:10Z) - Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking [44.66045367454493]
本稿では,SKPパラダイムの一般化能力について,グラニュラリティ,トランスファービリティ,スケーラビリティ,普遍性という4つの視点から評価・再考することを目的とする。
我々は、粒度と難易度が異なる9つのタスクからなる、SUBARUと呼ばれる新しいマルチグラニュラー・マルチレベルベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-31T03:20:22Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。