Fugu-MT 論文翻訳(概要): PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models

論文の概要: PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models

arxiv url: http://arxiv.org/abs/2506.17667v2
Date: Wed, 25 Jun 2025 06:09:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-26 12:28:29.356557
Title: PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models
Title（参考訳）: PhysUniBench:マルチモーダルモデルのための学部レベルの物理推論ベンチマーク
Authors: Lintao Wang, Encheng Su, Jiaqi Liu, Pengze Li, Peng Xia, Jiabei Xiao, Wenlong Zhang, Xinnan Dai, Xi Chen, Yuan Meng, Mingyu Ding, Lei Bai, Wanli Ouyang, Shixiang Tang, Aoran Wang, Xinzhu Ma,
Abstract要約: 大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
参考スコア（独自算出の注目度）: 69.73115077227969
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Physics problem-solving is a challenging domain for large AI models, requiring integration of conceptual understanding, mathematical reasoning, and interpretation of physical diagrams. Current evaluation methodologies show notable limitations in capturing the breadth and complexity of undergraduate-level physics, underscoring the need for more rigorous assessments. To this end, we present PhysUniBench, a large-scale multimodal benchmark designed to evaluate and improve the reasoning capabilities of multimodal large language models (MLLMs) specifically on undergraduate-level physics problems. PhysUniBench consists of 3,304 physics questions spanning 8 major sub-disciplines of physics, each accompanied by one visual diagrams. The benchmark includes both open-ended and multiple-choice questions, systematically curated and difficulty-rated through an iterative model-in-the-loop process. The benchmark's construction involved a rigorous multi-stage process, including multiple roll-outs, expert-level evaluation, automated filtering of easily solved problems, and a nuanced difficulty grading system with five levels. Through extensive experiments, we observe that current state-of-the-art models encounter substantial challenges in physics reasoning. For example, GPT-4o mini achieves only about 34.2% accuracy in the proposed PhysUniBench. These results highlight that current MLLMs struggle with advanced physics reasoning, especially on multi-step problems and those requiring precise diagram interpretation. By providing a broad and rigorous assessment tool, PhysUniBench aims to drive progress in AI for Science, encouraging the development of models with stronger physical reasoning, problem-solving skills, and multimodal understanding. The benchmark and evaluation scripts are available at https://prismax-team.github.io/PhysUniBenchmark/.
Abstract（参考訳）: 物理学的な問題解決は、概念的理解、数学的推論、物理図の解釈を必要とする、大規模なAIモデルにとって困難な領域である。現在の評価手法は、より厳密な評価の必要性を強調し、学部レベルの物理学の広さと複雑さを捉える際、顕著な限界を示している。この目的のために我々は,学部レベルの物理問題に特化して,MLLM(Multimodal Large Language Model)の推論能力の評価と改善を目的とした,大規模マルチモーダルベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。このベンチマークには、反復的なモデル・イン・ザ・ループプロセスを通じて体系的にキュレーションされ、評価が難しいオープンエンドと複数選択の2つの質問が含まれている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。広範な実験を通して、現在の最先端モデルが物理推論において重大な課題に直面しているのを観察する。例えば、GPT-4o miniは提案されたPhysUniBenchで約34.2%の精度しか達成していない。これらの結果は、現在のMLLMが高度な物理推論、特に多段階問題や正確な図解釈を必要とする問題に苦慮していることを示している。 PhysUniBenchは、広範かつ厳格な評価ツールを提供することによって、科学のためのAIの進歩を促進し、より強力な物理的推論、問題解決スキル、マルチモーダル理解を持つモデルの開発を促進することを目指している。ベンチマークと評価スクリプトはhttps://prismax-team.github.io/PhysUniBenchmark/.comで公開されている。

関連論文リスト

ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems [21.278539804482012]
大規模言語モデル(LLM)は、数学やプログラミングのような領域で顕著なパフォーマンスを示している。物理学は、正確な計算だけでなく、深い概念的理解と物理モデリングスキルも要求する固有の課題を提起する。既存のベンチマークは、制限された難易度、複数選択フォーマット、静的評価設定のために、しばしば不足する。
論文参考訳（メタデータ） (2025-07-07T08:43:56Z)
Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文参考訳（メタデータ） (2025-06-06T16:20:06Z)
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [89.48883747910448]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文参考訳（メタデータ） (2025-05-25T11:28:34Z)
PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文参考訳（メタデータ） (2025-05-21T18:33:50Z)
Scaling Physical Reasoning with the PHYSICS Dataset [32.956687630330116]
PHYSICSは、被験者と難易度にまたがる16,568の高品質な物理問題を含むデータセットである。力学、電磁気学、熱力学、光学、現代物理学の5つの分野を網羅している。また、高校から大学院レベルの物理学コースまで幅広い難易度がある。
論文参考訳（メタデータ） (2025-05-21T17:06:28Z)
PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions [9.428916253383402]
PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。 MLLMは様々な推論タスクにおいて顕著な能力を示してきたが、複雑な物理推論への応用は未解明のままである。
論文参考訳（メタデータ） (2025-05-21T12:48:16Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning [36.193595420239845]
1200プロブレムの大規模言語モデル評価ベンチマークであるPhysReasonを提案する。問題は平均8.1の解ステップが必要で、ハードは15.6である。 Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスモデルは、回答レベルの評価で60%以下を実現している。
論文参考訳（メタデータ） (2025-02-17T17:24:14Z)
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文参考訳（メタデータ） (2025-02-01T06:42:02Z)
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文参考訳（メタデータ） (2024-02-21T18:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。