Fugu-MT 論文翻訳(概要): Step-by-Step Remediation of Students' Mathematical Mistakes

論文の概要: Step-by-Step Remediation of Students' Mathematical Mistakes

arxiv url: http://arxiv.org/abs/2310.10648v1
Date: Mon, 16 Oct 2023 17:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 12:20:08.714861
Title: Step-by-Step Remediation of Students' Mathematical Mistakes
Title（参考訳）: 学生の数学的誤りの段階的修復
Authors: Rose E. Wang, Qingyang Zhang, Carly Robinson, Susanna Loeb, Dorottya Demszky
Abstract要約: 本稿では,経験を積んだ教師と共同開発したベンチマークReMathを紹介する。 ReMath上でのインストラクション調整およびダイアログモデルの性能評価を行った。
参考スコア（独自算出の注目度）: 4.5056128270428495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling high-quality tutoring is a major challenge in education. Because of the growing demand, many platforms employ novice tutors who, unlike professional educators, struggle to effectively address student mistakes and thus fail to seize prime learning opportunities for students. In this paper, we explore the potential for large language models (LLMs) to assist math tutors in remediating student mistakes. We present ReMath, a benchmark co-developed with experienced math teachers that deconstructs their thought process for remediation. The benchmark consists of three step-by-step tasks: (1) infer the type of student error, (2) determine the strategy to address the error, and (3) generate a response that incorporates that information. We evaluate the performance of state-of-the-art instruct-tuned and dialog models on ReMath. Our findings suggest that although models consistently improve upon original tutor responses, we cannot rely on models alone to remediate mistakes. Providing models with the error type (e.g., the student is guessing) and strategy (e.g., simplify the problem) leads to a 75% improvement in the response quality over models without that information. Nonetheless, despite the improvement, the quality of the best model's responses still falls short of experienced math teachers. Our work sheds light on the potential and limitations of using current LLMs to provide high-quality learning experiences for both tutors and students at scale. Our work is open-sourced at this link: \url{https://github.com/rosewang2008/remath}.
Abstract（参考訳）: 質の高いチューリングをスケールすることは教育の大きな課題である。需要が高まっているため、多くのプラットフォームは初心者の家庭教師を雇い、プロの教育者とは異なり、生徒のミスに効果的に対処するのに苦労している。本稿では,大規模言語モデル (LLM) が,学生の誤りの即時処理を支援する可能性について検討する。 remathは、経験豊富な数学教師と共同開発したベンチマークで、修復のための思考過程を分解する。ベンチマークは,(1)学生エラーのタイプを推測する,(2)エラーに対処する戦略を決定する,(3)その情報を組み込んだ応答を生成する,の3つのステップバイステップからなる。本研究では,ReMath上でのインストラクションとダイアログモデルの性能を評価する。以上の結果から,モデルが学習者の反応を一貫して改善するが,誤りの修正にはモデルだけでは頼りにできないことが示唆された。エラータイプ(例えば、学生が推測している)と戦略(例えば、問題を単純化する)を持つモデルを提供することで、その情報のないモデルよりも応答品質が75%向上する。それでも、改善にもかかわらず、最高のモデルの応答の質は、まだ経験豊富な数学教師に劣っている。我々の研究は、教師と学生の両方に大規模な学習体験を提供するために、現在のLLMを使うことの可能性と限界に光を当てている。私たちの仕事は、このリンクでオープンソース化されています。

関連論文リスト

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。 MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文参考訳（メタデータ） (2025-02-26T08:43:47Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。本手法では, 教師から金の合理性を得る代わりに, 生徒の過ちを特定・説明するよう教師に求めている。
論文参考訳（メタデータ） (2024-10-04T17:59:41Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。 MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文参考訳（メタデータ） (2024-06-06T16:18:20Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Democratizing Reasoning Ability: Tailored Learning from Large Language Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文参考訳（メタデータ） (2023-10-20T07:50:10Z)
A Conceptual Model for End-to-End Causal Discovery in Knowledge Tracing [8.049552839071918]
我々は,知識追跡における因果発見問題の解決に向けて,予備的な一歩を踏み出した。第3回NeurIPS 2022章「教育における学習経路の因果的洞察への挑戦」の項目の1つにその解決策が挙げられた。
論文参考訳（メタデータ） (2023-05-11T21:20:29Z)
Online Learning with Uncertain Feedback Graphs [12.805267089186533]
専門家間の関係をフィードバックグラフで把握し、学習者の意思決定を支援する。実際には、名目上のフィードバックグラフはしばしば不確実性を伴うため、専門家間の実際の関係を明らかにすることは不可能である。本研究は、潜在的な不確実性の諸事例を考察し、それらを扱うための新しいオンライン学習アルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-15T21:21:30Z)
Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文参考訳（メタデータ） (2021-02-23T08:07:22Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。