論文の概要: Evaluating GPT- and Reasoning-based Large Language Models on Physics Olympiad Problems: Surpassing Human Performance and Implications for Educational Assessment
- arxiv url: http://arxiv.org/abs/2505.09438v1
- Date: Wed, 14 May 2025 14:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.501938
- Title: Evaluating GPT- and Reasoning-based Large Language Models on Physics Olympiad Problems: Surpassing Human Performance and Implications for Educational Assessment
- Title(参考訳): 物理オリンピック問題におけるGPTおよび推論に基づく大規模言語モデルの評価:人的パフォーマンスと教育評価の意義
- Authors: Paul Tschisgale, Holger Maus, Fabian Kieser, Ben Kroehs, Stefan Petersen, Peter Wulff,
- Abstract要約: 大規模言語モデル(LLM)は現在広く利用されており、すべての教育レベルで学習者が利用できる。
本研究では,汎用LLM (GPT-4o) と推論最適化モデル (o1-preview) の問題解決性能を,ドイツの物理オリンピック参加者と比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are now widely accessible, reaching learners at all educational levels. This development has raised concerns that their use may circumvent essential learning processes and compromise the integrity of established assessment formats. In physics education, where problem solving plays a central role in instruction and assessment, it is therefore essential to understand the physics-specific problem-solving capabilities of LLMs. Such understanding is key to informing responsible and pedagogically sound approaches to integrating LLMs into instruction and assessment. This study therefore compares the problem-solving performance of a general-purpose LLM (GPT-4o, using varying prompting techniques) and a reasoning-optimized model (o1-preview) with that of participants of the German Physics Olympiad, based on a set of well-defined Olympiad problems. In addition to evaluating the correctness of the generated solutions, the study analyzes characteristic strengths and limitations of LLM-generated solutions. The findings of this study indicate that both tested LLMs (GPT-4o and o1-preview) demonstrate advanced problem-solving capabilities on Olympiad-type physics problems, on average outperforming the human participants. Prompting techniques had little effect on GPT-4o's performance, while o1-preview almost consistently outperformed both GPT-4o and the human benchmark. Based on these findings, the study discusses implications for the design of summative and formative assessment in physics education, including how to uphold assessment integrity and support students in critically engaging with LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在広く利用されており、すべての教育レベルで学習者が利用できる。
この開発は、それらの使用が本質的な学習プロセスを回避し、確立された評価フォーマットの整合性を損なう恐れを提起している。
物理学教育では、問題解決が指導と評価において中心的な役割を果たすため、LLMの物理学固有の問題解決能力を理解することが不可欠である。
このような理解は、LLMを指導と評価に組み込むための、責任と教育的なアプローチを伝える上で鍵となる。
そこで本研究では, 汎用LLM (GPT-4o, using various prompting technique) と推論最適化モデル (o1-preview) の問題解決性能を, 明確に定義されたオリンピアード問題に基づいて, ドイツ物理学オリンピアードの参加者のそれと比較した。
生成した解の正しさを評価することに加えて, LLM生成解の特徴的強度と限界を分析する。
本研究は,LLM (GPT-4oおよびo1-preview) の試験により,オリンピアド型物理問題に対する高度な問題解決能力が,ヒトよりも平均的に優れていたことを示唆した。
プロンプティング技術はGPT-4oの性能にはほとんど影響を与えなかったが、o1-previewはGPT-4oとヒトのベンチマークの両方でほぼ一貫して性能が向上した。
本研究は, 物理教育における要約的・形式的評価の設計の意義を考察し, 評価の整合性を維持し, 学生がLLMに批判的に関与することを支援する方法について考察した。
関連論文リスト
- Enhancing LLMs for Physics Problem-Solving using Reinforcement Learning with Human-AI Feedback [33.000541253136745]
大規模言語モデル(LLM)は、テキストベースのタスクにおいて強力な能力を示してきたが、物理学的な問題に必要な複雑な推論に苦慮している。
本稿では,人間・人工知能フィードバックを用いた強化学習(RLHAIF)を用いた物理問題におけるLLM性能向上のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T21:17:47Z) - Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents [27.112239616508834]
ミキチャー・オブ・リファインメント・エージェント(Mixture of Refinement Agents, MORA)は、大規模言語モデル(LLM)のための新しいエージェント・リファインメント・フレームワークである。
MoRAは、前述の誤りを訂正することで、LLM生成ベースソリューションを反復的に洗練し、その結果、オープンソースのLLMの性能が大幅に向上する。
我々は、SciEvalおよびMMLUサブセットに対する我々のアプローチと、我々の物理データセット(PhysicsQA)を評価する。
論文 参考訳(メタデータ) (2024-12-01T14:15:55Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。