論文の概要: The AlphaPhysics Term Rewriting System for Marking Algebraic Expressions in Physics Exams
- arxiv url: http://arxiv.org/abs/2507.18337v2
- Date: Tue, 05 Aug 2025 05:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.755252
- Title: The AlphaPhysics Term Rewriting System for Marking Algebraic Expressions in Physics Exams
- Title(参考訳): 物理実験における代数的表現のマーク付けのためのAlphaPhysics Term Rewriting System
- Authors: Peter Baumgartner, Lachlan McGinness,
- Abstract要約: 本稿では,物理検査を自動的にマークする手法を提案する。
マーキング問題は、基底真理解に対する正当性について、型付き学生回答を評価することである。
我々は,2023年のオーストラリア物理学オリンピックで,1500人以上の学生の受験結果の豊富なプールにおいて,本システムの評価を行った。
- 参考スコア(独自算出の注目度): 0.18416014644193066
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present our method for automatically marking Physics exams. The marking problem consists in assessing typed student answers for correctness with respect to a ground truth solution. This is a challenging problem that we seek to tackle using a combination of a computer algebra system, an SMT solver and a term rewriting system. A Large Language Model is used to interpret and remove errors from student responses and rewrite these in a machine readable format. Once formalized and language-aligned, the next step then consists in applying automated reasoning techniques for assessing student solution correctness. We consider two methods of automated theorem proving: off-the-shelf SMT solving and term rewriting systems tailored for physics problems involving trigonometric expressions. The development of the term rewrite system and establishing termination and confluence properties was not trivial, and we describe it in some detail in the paper. We evaluate our system on a rich pool of over 1500 real-world student exam responses from the 2023 Australian Physics Olympiad.
- Abstract(参考訳): 本稿では,物理検査を自動的にマークする手法を提案する。
マーキング問題は、基底真理解に対する正当性について、型付き学生回答を評価することである。
これは、計算機代数システム、SMTソルバ、項書き換えシステムの組み合わせによる課題である。
大規模言語モデル(Large Language Model)は、学生の反応からエラーを解釈し、削除し、それらを機械可読フォーマットで書き換えるために用いられる。
一旦形式化され、言語に適合すると、次のステップは、学生ソリューションの正しさを評価するための自動推論技術を適用することである。
本稿では, 既成のSMT解法と, 三角式を含む物理問題に適した項書き換えシステムという2つの自動定理証明法について考察する。
用語の書き直しと終了・合流特性の確立は簡単ではなく,本論文で詳述する。
我々は,2023年のオーストラリア物理学オリンピックで,1500人以上の学生の受験結果の豊富なプールにおいて,本システムの評価を行った。
関連論文リスト
- Self-Questioning Language Models [51.75087358141567]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。
提案者と解答者はともに強化学習を通じて訓練される。
3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文 参考訳(メタデータ) (2025-08-05T17:51:33Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Using machine learning to measure evidence of students' sensemaking in physics courses [5.509349550209279]
教育において、問題解決の正しさは、しばしば学生の学習と不適切に混同される。
本研究では,物理問題に対する解法を記述した説明書から,学生の身体感覚形成の証拠を定量化する手法を提案する。
我々は,ロジスティック回帰を用いた3つのユニークな言語エンコーダを実装し,2023年のタフツ大学の入門物理学講座の実際の学生385名について,デプロイ可能性の分析を行った。
論文 参考訳(メタデータ) (2025-03-19T18:49:21Z) - MathMistake Checker: A Comprehensive Demonstration for Step-by-Step Math Problem Mistake Finding by Prompt-Guided LLMs [13.756898876556455]
そこで本研究では,数理問題におけるステップ・バイ・ステップの誤り発見を自動化する新しいシステムであるMathMistake Checkerを提案する。
本システムは,教育的観点からの学習経験を簡素化し,効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2025-03-06T10:19:01Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Using Large Language Model to Solve and Explain Physics Word Problems
Approaching Human Level [0.0]
テキスト上で事前訓練された大言語モデル(LLM)は、純粋数学語問題だけでなく、物理語問題も解ける。
我々の研究は、物理語問題の自動解法、説明、生成に焦点を当てた最初の研究である。
論文 参考訳(メタデータ) (2023-09-15T06:13:06Z) - Limits of an AI program for solving college math problems [0.0]
ニューラルネットワークは、人間のレベルでのプログラム合成と少数ショット学習によって、大学の数学問題を解き、説明し、生成する。
彼らが記述したシステムは確かに印象的だが、上記の記述は非常に過大評価されている。
問題を解決する作業はニューラルネットワークではなく、シンボリック代数パッケージSympyによって行われる。
論文 参考訳(メタデータ) (2022-08-14T20:10:14Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - From Human Days to Machine Seconds: Automatically Answering and
Generating Machine Learning Final Exams [10.25071232250652]
MIT、ハーバード大学、コーネル大学などのトップ機関での機械学習の最終試験は、書くのに何日もかかり、生徒は解決するのに何時間もかかる。
大規模な言語モデルは、トレーニング後のオンラインのファイナルで、人間のレベルで機械学習のファイナルをパスし、新しい品質のファイナル質問を数秒で自動生成することを示した。
論文 参考訳(メタデータ) (2022-06-11T06:38:06Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。