論文の概要: The AI Teacher Test: Measuring the Pedagogical Ability of Blender and
GPT-3 in Educational Dialogues
- arxiv url: http://arxiv.org/abs/2205.07540v1
- Date: Mon, 16 May 2022 09:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 13:58:58.294914
- Title: The AI Teacher Test: Measuring the Pedagogical Ability of Blender and
GPT-3 in Educational Dialogues
- Title(参考訳): AI教師試験:教育対話におけるブレンダーとGPT-3の教育能力の測定
- Authors: Ana\"is Tack and Chris Piech
- Abstract要約: 本稿では,AI教師試験の最初の試みについて報告する。
私たちは、現実世界の対話において、人間の教師と並行して会話エージェントを実行することができるという洞察に基づいて、ソリューションを構築しました。
本手法は,教育における比較判断の信頼性を基盤として,確率モデルとベイジアンサンプリングを用いて教育能力の推定を行う。
- 参考スコア(独自算出の注目度): 5.424153769988429
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: How can we test whether state-of-the-art generative models, such as Blender
and GPT-3, are good AI teachers, capable of replying to a student in an
educational dialogue? Designing an AI teacher test is challenging: although
evaluation methods are much-needed, there is no off-the-shelf solution to
measuring pedagogical ability. This paper reports on a first attempt at an AI
teacher test. We built a solution around the insight that you can run
conversational agents in parallel to human teachers in real-world dialogues,
simulate how different agents would respond to a student, and compare these
counterpart responses in terms of three abilities: speak like a teacher,
understand a student, help a student. Our method builds on the reliability of
comparative judgments in education and uses a probabilistic model and Bayesian
sampling to infer estimates of pedagogical ability. We find that, even though
conversational agents (Blender in particular) perform well on conversational
uptake, they are quantifiably worse than real teachers on several pedagogical
dimensions, especially with regard to helpfulness (Blender: {\Delta} ability =
-0.75; GPT-3: {\Delta} ability = -0.93).
- Abstract(参考訳): BlenderやGPT-3のような最先端の生成モデルが優れたAI教師であり、学生に教育対話で返信できるかどうかをどうやって検証できるのか?
AI教師のテストの設計は難しい。評価方法は非常に必要だが、教育能力を測定するための既製のソリューションはない。
本稿では,AI教師試験の最初の試みについて報告する。
私たちは、現実世界の対話の中で、人間の教師と並行して会話エージェントを実行し、異なるエージェントが生徒にどう反応するかをシミュレートし、これらの反応を3つの能力の観点から比較する、という洞察に関するソリューションを構築しました。
本手法は,教育における比較判断の信頼性を基盤として,確率モデルとベイジアンサンプリングを用いて教育能力の推定を行う。
会話エージェント(特にBlender)は、会話の取り込みにおいてよく機能するが、実の教師よりも、特に有益性(Blender: {\Delta} ability = -0.75; GPT-3: {\Delta} ability = -0.93)に関して、定量的に劣ることがわかった。
関連論文リスト
- Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Improving mathematical questioning in teacher training [1.794107419334178]
高忠実でAIに基づくシミュレートされた教室システムにより、教師は効果的な教育戦略をリハーサルすることができる。
本稿では,教師が数学的質問のスキルを実践するのを支援するために,テキストベースの対話型エージェントを構築した。
論文 参考訳(メタデータ) (2021-12-02T05:33:03Z) - Measuring Conversational Uptake: A Case Study on Student-Teacher
Interactions [19.80258498803113]
教育における教員の学生貢献の獲得は、より高い生徒の達成と結びついている。
そこで本稿では,米国数学教室の授業書から抽出した学生と教師の交流のデータセットを,専門家の取り込みにアノテートしたデータとして公開することにより,取り込みを計測する枠組みを提案する。
pJSDは反復に基づくベースラインよりも優れており,質問応答や修正など,より広い範囲の取り込み現象を識別できる。
論文 参考訳(メタデータ) (2021-06-07T18:00:06Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。