論文の概要: MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems
- arxiv url: http://arxiv.org/abs/2305.14536v2
- Date: Mon, 23 Oct 2023 12:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:44:16.951628
- Title: MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems
- Title(参考訳): MathDial: 数学推論問題に根ざした豊富な教育特性を持つ対話学習データセット
- Authors: Jakub Macina, Nico Daheim, Sankalan Pal Chowdhury, Tanmay Sinha, Manu
Kapur, Iryna Gurevych, Mrinmaya Sachan
- Abstract要約: そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
- 参考スコア(独自算出の注目度): 74.73881579517055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While automatic dialogue tutors hold great potential in making education
personalized and more accessible, research on such systems has been hampered by
a lack of sufficiently large and high-quality datasets. Collecting such
datasets remains challenging, as recording tutoring sessions raises privacy
concerns and crowdsourcing leads to insufficient data quality. To address this,
we propose a framework to generate such dialogues by pairing human teachers
with a Large Language Model (LLM) prompted to represent common student errors.
We describe how we use this framework to collect MathDial, a dataset of 3k
one-to-one teacher-student tutoring dialogues grounded in multi-step math
reasoning problems. While models like GPT-3 are good problem solvers, they fail
at tutoring because they generate factually incorrect feedback or are prone to
revealing solutions to students too early. To overcome this, we let teachers
provide learning opportunities to students by guiding them using various
scaffolding questions according to a taxonomy of teacher moves. We demonstrate
MathDial and its extensive annotations can be used to finetune models to be
more effective tutors (and not just solvers). We confirm this by automatic and
human evaluation, notably in an interactive setting that measures the trade-off
between student solving success and telling solutions. The dataset is released
publicly.
- Abstract(参考訳): 自動対話教師は、教育をパーソナライズし、よりアクセスしやすくするための大きな可能性を持っているが、このようなシステムの研究は、十分な大規模で高品質なデータセットの欠如によって妨げられている。
このようなデータセットの収集は依然として困難であり、指導セッションの記録はプライバシの懸念を招き、クラウドソーシングはデータ品質の不足につながる。
そこで本研究では,一般的な学生の誤りを表すために,人間教師とLLM(Large Language Model)を組み合わせて対話を生成するフレームワークを提案する。
我々はこのフレームワークを用いて、多段階数学推論問題に基づく3k対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
GPT-3のようなモデルは優れた問題解決者であるが、実際に誤ったフィードバックを得られるか、あるいは学生に解決策を明らかにするのが早すぎるため、指導に失敗する。
これを解決するために,教師の動きの分類に従って,様々な足場質問を用いて指導することで,生徒に学習機会を提供する。
我々は、MathDialとその豊富なアノテーションを使ってモデルをより効果的なチューターとして微調整できることを示した。
特に,学生の問題解決と問題解決のトレードオフを測定するインタラクティブな環境では,自動評価と人間評価によって確認する。
データセットは公開されています。
関連論文リスト
- Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Covering Uncommon Ground: Gap-Focused Question Generation for Answer
Assessment [75.59538732476346]
このようなギャップに着目した質問(GFQ)を自動生成する問題に着目する。
タスクを定義し、優れたGFQの所望の側面を強調し、これらを満たすモデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T22:21:42Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Computationally Identifying Funneling and Focusing Questions in
Classroom Discourse [24.279653100481863]
本稿では,授業談話におけるファネリングと集中型質問を計算的に検出するタスクを提案する。
ファネリングと集中型質問にラベル付けされた2,348の教師発話の注釈付きデータセットをリリースする。
我々の最高のモデルである教師付きRoBERTaモデルは、データセットに微調整され、人間の専門家ラベルと.76の強い線形相関と、ポジティブな教育結果を持つ。
論文 参考訳(メタデータ) (2022-07-08T01:28:29Z) - The AI Teacher Test: Measuring the Pedagogical Ability of Blender and
GPT-3 in Educational Dialogues [5.424153769988429]
本稿では,AI教師試験の最初の試みについて報告する。
私たちは、現実世界の対話において、人間の教師と並行して会話エージェントを実行することができるという洞察に基づいて、ソリューションを構築しました。
本手法は,教育における比較判断の信頼性を基盤として,確率モデルとベイジアンサンプリングを用いて教育能力の推定を行う。
論文 参考訳(メタデータ) (2022-05-16T09:36:30Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。