論文の概要: BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset
- arxiv url: http://arxiv.org/abs/2507.03483v2
- Date: Tue, 08 Jul 2025 05:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.800159
- Title: BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset
- Title(参考訳): BMMR: 大規模バイリンガルマルチモーダルマルチディシッド推論データセット
- Authors: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Philip Torr, Xuanjing Huang,
- Abstract要約: 大規模バイリンガル・マルチモーダル・マルチディシプリナ推論データセットであるBMMRを導入し,大規模マルチモーダルモデル(LMM)の開発と評価を行った。
BMMRは、UNESCOが定義した300の課題にまたがる110kの大学レベルの質問で構成されており、書籍、試験、クイズといった印刷メディアとデジタルメディアからソースされた、多種多様なフォーマット、補充されたQA、そしてオープンエンドのQAにまたがっている。
BMMR-Evalは20,458の高品質なインスタンスで構成され、LMMの知識を包括的に評価し、中国語と中国語の両方の複数の分野にわたる推論を行う。
- 参考スコア(独自算出の注目度): 83.61028277413543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce BMMR, a large-scale bilingual, multimodal, multi-disciplinary reasoning dataset for the community to develop and evaluate large multimodal models (LMMs). BMMR comprises 110k college-level questions spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice, fill-in-the-blank, and open-ended QA-and sourced from both print and digital media such as books, exams, and quizzes. All data are curated and filtered via a human-in-the-loop and scalable framework, and each instance is paired with a high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval that comprises 20,458 high-quality instances to comprehensively assess LMMs' knowledge and reasoning across multiple disciplines in both Chinese and English; and BMMR-Train that contains 88,991 instances to support further research and development, extending the current focus on mathematical reasoning to diverse disciplines and domains. In addition, we propose the process-based multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained evaluation of reasoning paths. Extensive experiments on 24 models reveal that (i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs only on specific subjects; (iii) open-source models still trail their proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap. Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other in-depth studies, uncovering the challenges LMMs currently face in multidisciplinary reasoning. We will release the data, and we hope our work can offer insights and contributions to the community.
- Abstract(参考訳): 本稿では,大規模マルチモーダルモデル(LMM)の開発と評価を行うための大規模バイリンガル,マルチモーダル,マルチディシプリナ推論データセットBMMRを紹介する。
BMMRは、UNESCOが定義した300の課題にまたがる110kの大学レベルの質問で構成されており、書籍、試験、クイズといった印刷メディアとデジタルメディアからソースされた、多種多様なフォーマット、補充されたQA、そしてオープンエンドのQAにまたがっている。
すべてのデータは、Human-in-the-loopとスケーラブルなフレームワークを通じてキュレートされ、フィルタリングされる。
データセットは、中国語と英語の複数の分野にわたるLMMの知識と推論を包括的に評価する20,458の高品質インスタンスを含むBMMR-Evalと、さらなる研究と開発を支援する88,991のインスタンスを含むBMMR-Trainの2つの部分で構成され、現在の数学的推論を様々な分野やドメインに拡張している。
さらに,プロセスベースマルチディシプリタ (BMMR-Verifier) を提案する。
24種類のモデルに対する大規模な実験が明らかに
(i)SOTAモデル(例:o3、Gemini-2.5-Pro)でさえBMMR-Evalに実質的なヘッドルームを残している。
(二)推論モデルは、特定の主題に限って規律バイアスを示し、LMMを上回ります。
(iii)オープンソースモデルは依然として独自のモデルに追随し、
(4)BMMRトレインの微調整は、このギャップを狭める。
さらに,BMMR-Verifier などを用いた推論連鎖解析を行い,LMM が抱える課題を明らかにする。
データを公開し、私たちの仕事がコミュニティに洞察とコントリビューションを提供できることを願っています。
関連論文リスト
- R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges [25.82535441866882]
本調査は,マルチモーダル大言語モデル(MLLM)の時代における数学的推論の包括的解析である。
2021年以降に出版された200以上の研究を概観し,Math-LLMの最先端の展開について検討する。
特に、マルチモーダルな数学的推論パイプラインと(M)LLMと関連する方法論について検討する。
論文 参考訳(メタデータ) (2024-12-16T16:21:41Z) - CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models [35.9843681685377]
我々は,LMMの数学的推論を評価するために,中国のマルチモーダル数学(CMM-Math)データセットをリリースする。
CMM-Mathには28,000以上の高品質のサンプルがあり、中国の小学校から高校まで12学年の詳細な解がある。
複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。
論文 参考訳(メタデータ) (2024-09-04T16:00:21Z) - CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark [53.24896036161829]
大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-22T13:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。