論文の概要: Autograding Mathematical Induction Proofs with Natural Language Processing
- arxiv url: http://arxiv.org/abs/2406.10268v1
- Date: Tue, 11 Jun 2024 15:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:31:17.272355
- Title: Autograding Mathematical Induction Proofs with Natural Language Processing
- Title(参考訳): 自然言語処理による自動数学的帰納証明
- Authors: Chenyan Zhao, Mariana Silva, Seth Poulsen,
- Abstract要約: 本稿では,自由形式の数学的証明を自動分解できる一連のトレーニング手法とモデルを提案する。
モデルは、誘導問題によって4つの異なる証明から収集された証明データを用いて訓練される。
我々は、トレーニングデータと同じ証明を格付けするために、人間のグルーパーを雇い、最高のグルーパーモデルが、ほとんどの人間のグルーパーよりも正確であることに気付きました。
- 参考スコア(独自算出の注目度): 0.12289361708127876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In mathematical proof education, there remains a need for interventions that help students learn to write mathematical proofs. Research has shown that timely feedback can be very helpful to students learning new skills. While for many years natural language processing models have struggled to perform well on tasks related to mathematical texts, recent developments in natural language processing have created the opportunity to complete the task of giving students instant feedback on their mathematical proofs. In this paper, we present a set of training methods and models capable of autograding freeform mathematical proofs by leveraging existing large language models and other machine learning techniques. The models are trained using proof data collected from four different proof by induction problems. We use four different robust large language models to compare their performances, and all achieve satisfactory performances to various degrees. Additionally, we recruit human graders to grade the same proofs as the training data, and find that the best grading model is also more accurate than most human graders. With the development of these grading models, we create and deploy an autograder for proof by induction problems and perform a user study with students. Results from the study shows that students are able to make significant improvements to their proofs using the feedback from the autograder, but students still do not trust the AI autograders as much as they trust human graders. Future work can improve on the autograder feedback and figure out ways to help students trust AI autograders.
- Abstract(参考訳): 数学の証明教育では、学生が数学の証明を書くことを学ぶのを助ける介入が必要である。
研究によると、タイムリーなフィードバックは、新しいスキルを学ぶ学生にとって非常に役に立つ。
長年にわたり、自然言語処理モデルは数学的テキストに関連するタスクでうまく機能するのに苦労してきたが、近年の自然言語処理の発展は、学生に数学的証明に対する即時フィードバックを与える機会を生み出している。
本稿では,既存の大規模言語モデルや他の機械学習技術を活用して,自由形式の数学的証明を自動分解する訓練手法とモデルを提案する。
モデルは、誘導問題によって4つの異なる証明から収集された証明データを用いて訓練される。
我々は、4つの異なる頑健な大規模言語モデルを使用してパフォーマンスを比較し、それぞれが満足できるパフォーマンスを様々な程度に達成しています。
さらに、トレーニングデータと同じ証明を格付けするために、人間の学級者を募集し、最高の学級モデルがほとんどの学級者よりも正確であることを見出した。
これらのグレーティングモデルの開発により,帰納的問題による証明のためのオートグラファーの作成と展開を行い,学生とのユーザスタディを実施する。
研究結果は、学生がオートグラファーからのフィードバックを使って証明を大幅に改善できることを示しているが、学生は人間のグレーダーを信頼するほどAIオートグラファーを信頼していない。
将来の作業は、オートグラファーのフィードバックを改善し、学生がAIオートグラダーを信頼する方法を見つけることができる。
関連論文リスト
- LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Autonomous Data Selection with Language Models for Mathematical Texts [13.789739307267952]
自律的なデータ選択に基礎言語モデルを活用する新しい戦略を導入する。
提案手法では,メタプロンプト言語モデルをゼロショット検証器として利用し,高品質な数学的コンテンツを自律的に評価・選択する。
本手法は,最先端のベースラインに比べて,トークンの事前学習効率が2倍に向上したことを示す。
論文 参考訳(メタデータ) (2024-02-12T13:09:21Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Baldur: Whole-Proof Generation and Repair with Large Language Models [8.100054850290507]
我々は、自然言語のテキストとコードに基づいて訓練され、証明について微調整された大きな言語モデルを使用して、一度に定理のすべての証明を生成する。
我々は、この証明生成モデルと微調整の補修モデルを組み合わせて、生成した証明を修復し、さらに証明力を増強する。
本手法をプロトタイプであるBaldurで評価し、6,336 Isabelle/HOL定理とその証明のベンチマークで評価する。
論文 参考訳(メタデータ) (2023-03-08T22:00:15Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - NaturalProver: Grounded Mathematical Proof Generation with Language
Models [84.2064569475095]
自然数理言語における定理証明は、数学の進歩と教育において中心的な役割を果たす。
本研究では,背景参照を条件づけて証明を生成する言語モデルであるNaturalProverを開発する。
NaturalProverは、短い(2-6ステップ)証明を必要とするいくつかの定理を証明でき、40%の時間で正しいと評価された次のステップの提案を提供することができる。
論文 参考訳(メタデータ) (2022-05-25T17:01:18Z) - Towards Trustworthy AutoGrading of Short, Multi-lingual, Multi-type
Answers [2.2000998828262652]
本研究では、複数の言語から約1000万の質問応答対からなる大規模なデータセットを使用する。
本研究は, 自動的に評価された回答の精度を向上し, 指導助手の精度と同等の精度を実現する方法を示す。
論文 参考訳(メタデータ) (2022-01-02T12:17:24Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。