論文の概要: UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2502.00334v1
- Date: Sat, 01 Feb 2025 06:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:46.899259
- Title: UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models
- Title(参考訳): UGPhysics:大規模言語モデルを用いた物理推論のための総合ベンチマーク
- Authors: Xin Xu, Qiyun Xu, Tong Xiao, Tianhao Chen, Yuchen Yan, Jiaxin Zhang, Shizhe Diao, Can Yang, Yang Wang,
- Abstract要約: 物理推論における大規模言語モデル(LLM)を評価するためのベンチマークであるUGPhysicsを紹介する。
UGPhysicsには、英語と中国語の両方で5,520人の学部レベルの物理学問題が含まれており、7つの異なる回答タイプと4つの異なる物理推論スキルを持つ13の被験者をカバーしている。
また,物理問題の解答正当性を評価するために,MARJ(Model-Assistant Rule-based Judgment)パイプラインを開発した。
- 参考スコア(独自算出の注目度): 39.917074900737575
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in solving complex reasoning tasks, particularly in mathematics. However, the domain of physics reasoning presents unique challenges that have received significantly less attention. Existing benchmarks often fall short in evaluating LLMs' abilities on the breadth and depth of undergraduate-level physics, underscoring the need for a comprehensive evaluation. To fill this gap, we introduce UGPhysics, a large-scale and comprehensive benchmark specifically designed to evaluate UnderGraduate-level Physics (UGPhysics) reasoning with LLMs. UGPhysics includes 5,520 undergraduate-level physics problems in both English and Chinese, covering 13 subjects with seven different answer types and four distinct physics reasoning skills, all rigorously screened for data leakage. Additionally, we develop a Model-Assistant Rule-based Judgment (MARJ) pipeline specifically tailored for assessing answer correctness of physics problems, ensuring accurate evaluation. Our evaluation of 31 leading LLMs shows that the highest overall accuracy, 49.8% (achieved by OpenAI-o1-mini), emphasizes the necessity for models with stronger physics reasoning skills, beyond math abilities. We hope UGPhysics, along with MARJ, will drive future advancements in AI for physics reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に数学において複雑な推論タスクを解く際、顕著な能力を示した。
しかし、物理学の推論の領域は、はるかに注意を引いてきたユニークな課題を提示する。
既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多く、包括的な評価の必要性を強調している。
このギャップを埋めるために、我々はLLMを用いたUnderGraduate-level Physics (UGPhysics)推論を評価するために特別に設計された大規模かつ包括的なベンチマークであるUGPhysicsを紹介した。
UGPhysicsには、英語と中国語の両方で5,520人の学部レベルの物理問題が含まれており、7つの異なる回答タイプと4つの異なる物理推論スキルを持つ13の被験者をカバーしている。
さらに,物理問題の解答正当性を評価し,正確な評価を確実にするためのMARJ(Model-Assistant Rule-based Judgment)パイプラインを開発した。
第31回LLMによる評価の結果,計算能力以上の物理推論能力を持つモデルでは,49.8%(OpenAI-o1-miniが達成)の総合的精度が重要であることがわかった。
私たちは、UGPhysicsとMARJが、物理学の推論のためにAIの今後の進歩を推進してくれることを期待している。
関連論文リスト
- Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。
本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。
最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文 参考訳(メタデータ) (2024-09-10T01:20:26Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - Physics simulation capabilities of LLMs [0.0]
大規模言語モデル(LLM)は、学部レベルから大学院レベルの物理学教科書の問題を解くことができ、コーディングに精通している。
本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。
論文 参考訳(メタデータ) (2023-12-04T18:06:41Z) - Using Large Language Model to Solve and Explain Physics Word Problems
Approaching Human Level [0.0]
テキスト上で事前訓練された大言語モデル(LLM)は、純粋数学語問題だけでなく、物理語問題も解ける。
我々の研究は、物理語問題の自動解法、説明、生成に焦点を当てた最初の研究である。
論文 参考訳(メタデータ) (2023-09-15T06:13:06Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Advances in apparent conceptual physics reasoning in GPT-4 [0.0]
ChatGPTは、人間の会話をエミュレートする巨大なテキストコーパスに基づいて訓練された大きな言語モデルに基づいて構築されている。
最近の研究は、GPT-3.5が何らかの名目レベルで入門物理学のコースをパスし、ニュートン力学のフォース・コンセプト・インベントリへの最小限の理解に近づいたものを登録できることを実証している。
この研究はこれらの結果を再現し、最新バージョンのGPT-4が後者の文脈ではるかに高いスコアに達したことを証明した。
論文 参考訳(メタデータ) (2023-03-29T20:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。