論文の概要: Large Language Models Approach Expert Pedagogical Quality in Math Tutoring but Differ in Instructional and Linguistic Profiles
- arxiv url: http://arxiv.org/abs/2512.20780v1
- Date: Tue, 23 Dec 2025 21:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.603941
- Title: Large Language Models Approach Expert Pedagogical Quality in Math Tutoring but Differ in Instructional and Linguistic Profiles
- Title(参考訳): 大規模言語モデルによる数学学習における教育的品質のエキスパートアプローチ : 教育的・言語的プロファイルの差異
- Authors: Ramatu Oiza Abdulsalam, Segun Aroyehun,
- Abstract要約: 大規模な言語モデルと、専門家の家庭教師、初級の人家庭教師、および複数の大きな言語モデルを比較した。
大規模言語モデルでは,教育的品質を平均的に評価する専門家レベルにアプローチするが,教育的および言語的プロファイルに体系的な差異が認められる。
全体として、最近の大規模言語モデルは、異なる教育戦略と言語戦略に依存しながら、専門家の家庭教師に匹敵する教育的品質のレベルを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has explored the use of large language models for generating tutoring responses in mathematics, yet it remains unclear how closely their instructional behavior aligns with expert human practice. We examine this question using a controlled, turn-level comparison in which expert human tutors, novice human tutors, and multiple large language models respond to the same set of math remediation conversation turns. We examine both instructional strategies and linguistic characteristics of tutoring responses, including restating and revoicing, pressing for accuracy, lexical diversity, readability, politeness, and agency. We find that large language models approach expert levels of perceived pedagogical quality on average but exhibit systematic differences in their instructional and linguistic profiles. In particular, large language models tend to underuse restating and revoicing strategies characteristic of expert human tutors, while producing longer, more lexically diverse, and more polite responses. Statistical analyses show that restating and revoicing, lexical diversity, and pressing for accuracy are positively associated with perceived pedagogical quality, whereas higher levels of agentic and polite language are negatively associated. Overall, recent large language models exhibit levels of perceived pedagogical quality comparable to expert human tutors, while relying on different instructional and linguistic strategies. These findings underscore the value of analyzing instructional strategies and linguistic characteristics when evaluating tutoring responses across human tutors and intelligent tutoring systems.
- Abstract(参考訳): 近年の研究では、数学におけるチューリング応答の生成に大規模な言語モデルを用いることが検討されているが、その指導行動が専門家の人間の実践とどの程度密接に一致しているかは定かではない。
本研究では, 専門家の家庭教師, 初心者の家庭教師, および複数の大規模言語モデルが, 同じ数学的修復会話に応答する, 制御されたターンレベル比較を用いて, この問題を考察する。
本研究は,リフレッシュ,リボイシング,正確性,語彙の多様性,可読性,丁寧さ,エージェンシーなどの指導的方略と言語的特性について検討する。
大規模言語モデルでは,教育的品質を平均的に評価する専門家レベルにアプローチするが,教育的および言語的プロファイルに体系的な差異が認められる。
特に、大きな言語モデルは、より長く、より語彙的に多様性があり、より丁寧な反応を産みながら、専門家の家庭教師に特徴的な回復戦略や退行戦略を過小評価する傾向にある。
統計的分析によると、リフレッシュ、リボッキング、語彙の多様性、正確さの追求は教育的品質に肯定的に関連しているのに対し、エージェント言語と礼儀正しい言語は否定的に関連している。
全体として、最近の大規模言語モデルは、異なる教育戦略と言語戦略に依存しながら、専門家の家庭教師に匹敵する教育的品質のレベルを示す。
これらの知見は、教師と知的教官システム間での学習反応を評価する際に、指導戦略と言語特性を分析することの価値を浮き彫りにした。
関連論文リスト
- EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models [6.0020878662404975]
本稿では、外国語教育の文脈において、LLMの教育文法に関する知識を評価するために設計された最初のベンチマークを紹介する。
このベンチマークは、文法認識、微粒な文法的区別、分類的識別、言語的干渉に対する抵抗性を評価するために設計された5つのタスクからなる。
論文 参考訳(メタデータ) (2025-04-17T18:01:50Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Dissociating language and thought in large language models [52.39241645471213]
大規模言語モデル(LLM)は、人間の言語を習得する上で、今までに最も近いモデルである。
我々は、この区別を人間の神経科学に根ざし、形式的、機能的な能力は異なる神経機構に依存していることを示した。
LLMは形式的能力は驚くほど優れているが、機能的能力のタスクにおける性能はいまだに不明瞭である。
論文 参考訳(メタデータ) (2023-01-16T22:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。