論文の概要: Multi-Physics: A Comprehensive Benchmark for Multimodal LLMs Reasoning on Chinese Multi-Subject Physics Problems
- arxiv url: http://arxiv.org/abs/2509.15839v1
- Date: Fri, 19 Sep 2025 10:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.124695
- Title: Multi-Physics: A Comprehensive Benchmark for Multimodal LLMs Reasoning on Chinese Multi-Subject Physics Problems
- Title(参考訳): 中国の多目的物理問題に対するマルチモーダルLLMの総合ベンチマーク
- Authors: Zhongze Luo, Zhenshuai Yin, Yongxin Guo, Zhichao Wang, Jionghao Zhu, Xiaoying Tang,
- Abstract要約: 我々は,5つの難易度を含む総合的なベンチマークである,中国の物理推論のためのマルチ物理について紹介する。
我々は20種類のMLLMの評価に2つの評価フレームワークを使用し、最終回答精度とステップ・バイ・ステップの整合性の両方を分析した。
- 参考スコア(独自算出の注目度): 15.023749693065406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal LLMs (MLLMs) demonstrate remarkable reasoning progress, their application in specialized scientific domains like physics reveals significant gaps in current evaluation benchmarks. Specifically, existing benchmarks often lack fine-grained subject coverage, neglect the step-by-step reasoning process, and are predominantly English-centric, failing to systematically evaluate the role of visual information. Therefore, we introduce \textbf {Multi-Physics} for Chinese physics reasoning, a comprehensive benchmark that includes 5 difficulty levels, featuring 1,412 image-associated, multiple-choice questions spanning 11 high-school physics subjects. We employ a dual evaluation framework to evaluate 20 different MLLMs, analyzing both final answer accuracy and the step-by-step integrity of their chain-of-thought. Furthermore, we systematically study the impact of difficulty level and visual information by comparing the model performance before and after changing the input mode. Our work provides not only a fine-grained resource for the community but also offers a robust methodology for dissecting the multimodal reasoning process of state-of-the-art MLLMs, and our dataset and code have been open-sourced: https://github.com/luozhongze/Multi-Physics.
- Abstract(参考訳): マルチモーダルLSM(MLLM)は顕著な推論の進歩を示すが、物理のような専門的な科学分野への応用は、現在の評価ベンチマークにおいて大きなギャップを顕在化している。
具体的には、既存のベンチマークは、詳細な対象範囲を欠くことが多く、ステップ・バイ・ステップの推論プロセスを無視し、主に英語中心であり、視覚情報の役割を体系的に評価することができない。
そこで,中国物理学推論における「textbf {Multi-Physics"」を導入し,11人の高校生を対象にした1,412のイメージ関連複数選択質問を特徴とする5つの難易度を含む総合的なベンチマークを行った。
我々は20種類のMLLMの評価に2つの評価フレームワークを使用し、最終回答精度とステップ・バイ・ステップの整合性の両方を分析した。
さらに,入力モードの変更前後のモデル性能を比較し,難易度と視覚情報の影響を系統的に検討した。
我々の研究は、コミュニティにきめ細かいリソースを提供するだけでなく、最先端MLLMのマルチモーダル推論プロセスを分離するための堅牢な方法論も提供しています。
関連論文リスト
- MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions [9.428916253383402]
PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。
MLLMは様々な推論タスクにおいて顕著な能力を示してきたが、複雑な物理推論への応用は未解明のままである。
論文 参考訳(メタデータ) (2025-05-21T12:48:16Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。