論文の概要: TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.02663v1
- Date: Fri, 03 Oct 2025 01:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.232471
- Title: TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models
- Title(参考訳): TutorBench:大規模言語モデルのチューニング能力を評価するベンチマーク
- Authors: Rakshith S Srinivasa, Zora Che, Chen Bo Calvin Zhang, Diego Mares, Ernesto Hernandez, Jayeon Park, Dean Lee, Guillermo Mangialardi, Charmaine Ng, Ed-Yeremai Hernandez Cardona, Anisha Gunjal, Yunzhong He, Bing Liu, Chen Xing,
- Abstract要約: TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。
サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。
我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
- 参考スコア(独自算出の注目度): 10.963195858672627
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As students increasingly adopt large language models (LLMs) as learning aids, it is crucial to build models that are adept at handling the nuances of tutoring: they need to identify the core needs of students, be adaptive, provide personalized guidance, and be accurate. To this end, we introduce TutorBench, a dataset and evaluation benchmark designed to rigorously evaluate the core tutoring skills of LLMs. The dataset comprises 1,490 samples curated by human experts, focused on high-school and AP-level curricula. The samples are drawn from three common tutoring tasks: (i) generating adaptive explanations tailored to a student's confusion, (ii) providing actionable feedback on a student's work, and (iii) promoting active learning through effective hint generation. To account for the inherent complexity of tutoring, samples are accompanied by sample-specific rubrics which are used to judge model responses during evaluation. TutorBench uses a reliable and fine-grained automatic evaluation method that uses an LLM-judge and the sample-specific rubrics. We evaluate 16 frontier LLMs on TutorBench and present a detailed analysis of their performance and behavior. Our results show that none of the frontier LLMs achieve a score of greater than $56\%$, showing a large room for improvement. We find that LLMs fall short in exhibiting the full range of tutoring skills needed to guide, diagnose, and support students effectively, with all the frontier models achieving less than a $60\%$ pass rate on rubric criteria related to these skills. We also find that different model families exhibit varied strengths and limitations: the Claude models outperform others in supporting active learning, while they lag behind in the other two use cases. By releasing TutorBench, we provide a comprehensive and unsaturated benchmark to guide the development of the next-generation of AI tutors.
- Abstract(参考訳): 学生は大きな言語モデル(LLM)を学習補助として採用する傾向にあるため、教師のニュアンスを扱うのに十分なモデルを構築することが不可欠である。
そこで本研究では,LLMの中核的チューリングスキルを厳格に評価するデータセットと評価ベンチマークであるTutorBenchを紹介する。
データセットは、高校とAPレベルのカリキュラムに焦点を当てた、人間の専門家がキュレートした1,490のサンプルで構成されている。
サンプルは3つの一般的な学習課題から抽出される。
一 生徒の混乱に合わせた適応的な説明を作成すること。
二 学生の著作物に対する実効的なフィードバックの提供、及び
三 効果的なヒント生成による積極的学習を促進すること。
チュータリングの本質的な複雑さを説明するため、サンプルには、評価中のモデル応答を判断するために使用されるサンプル固有の潤滑剤が伴っている。
TutorBench は信頼性が高くきめ細かな自動評価手法を用いており、LSM-judge とサンプル固有のルーリックを用いている。
我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
以上の結果から,フロンティア LLM はいずれも 56 % 以上のスコアを得られず,改善の余地が大きいことが示唆された。
その結果, LLMは, 生徒の指導, 診断, 支援に要する指導能力の多様さに乏しく, 全てのフロンティアモデルが60 %以下のパスレートを達成できた。
Claudeモデルは、他の2つのユースケースで遅れている一方で、アクティブな学習をサポートする上で、他の人よりも優れています。
TutorBenchをリリースすることにより、私たちは、次世代のAIチューターの開発をガイドするための総合的かつ不飽和なベンチマークを提供します。
関連論文リスト
- Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境をシミュレートした学習課題に対して,最先端の3つのLLMを実証的に比較した。
論文 参考訳(メタデータ) (2025-09-02T14:21:59Z) - Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension? [8.558834738072363]
大規模言語モデル (LLMs) は、知能学習システム (ITSs) の開発において、代用学生としての利用が増えている。
我々は,4,8,12の数学と読解に関する全国教育進歩評価(NAEP)から,489項目のデータセットを収集した。
本研究では,11種類の多種多様かつ最先端のLLMを実生と同じ能力尺度に位置づけるために,IRTモデルを適用した。
論文 参考訳(メタデータ) (2025-07-11T00:36:57Z) - EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving [61.99289768925256]
EvaLearnは、大きな言語モデル(LLM)を学習能力と課題の効率性を評価するために設計されたベンチマークである。
9つのフロンティアモデルをベンチマークし、様々な性能プロファイルを観察する。
静的能力の強い現在のLLMは、全てのタスクにおいて学習能力に明らかな優位性を示すものではない。
論文 参考訳(メタデータ) (2025-06-03T09:18:33Z) - Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback [9.51494089949975]
大規模言語モデル(LLM)は、CLLASS(CLassroom Assessment Scoring System)のインストラクショナルサポートのドメインスコアを推定するために用いられる。
我々はメタピアソンのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて、教師の発話の個々の発話を分類する機械学習アーキテクチャを設計する。
これらの発話レベルの判断は15分間の観察セッションに集約され、グローバルなCLASSスコアを推定する。
論文 参考訳(メタデータ) (2023-10-02T12:11:17Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。