Fugu-MT 論文翻訳(概要): The Missing Evaluation Axis: What 10,000 Student Submissions Reveal About AI Tutor Effectiveness

論文の概要: The Missing Evaluation Axis: What 10,000 Student Submissions Reveal About AI Tutor Effectiveness

arxiv url: http://arxiv.org/abs/2605.05648v1
Date: Thu, 07 May 2026 03:58:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.512099
Title: The Missing Evaluation Axis: What 10,000 Student Submissions Reveal About AI Tutor Effectiveness
Title（参考訳）: AIチューターの有効性について、学生1万人が明らかにした評価の欠落
Authors: Rose Niousha, Samantha Boatright Smith, Bita Akram, Peter Brusilovsky, Arto Hellas, Juho Leinonen, John DeNero, Narges Norouzi,
Abstract要約: 我々は,AI教師の評価を,学生のインタラクションデータに基づく行動次元で拡張すべきだと論じる。評価フレームワークを提案し,それに対応するAI教師のフィードバックで10,235のコード入力に適用する。このフレームワークを使用して、大規模に導入されたコンピュータサイエンスコースにおいて、異なるセメータにまたがる2つのデプロイされたAIチューターを比較することで、学生のエンゲージメントパターンにかなりの違いが明らかになる。
参考スコア（独自算出の注目度）: 9.482202294953526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current Artificial Intelligence (AI)-based tutoring systems (AI tutors) are primarily evaluated based on the pedagogical quality of their feedback messages. While important, pedagogy alone is insufficient because it ignores a critical question: what do students actually do with the feedback they receive? We argue that AI tutor evaluation should be extended with a behavioral dimension grounded in student interaction data, which complements pedagogical assessment. We propose an evaluation framework and apply it to 10,235 code submissions with corresponding AI tutor feedback from an introductory undergraduate programming course to measure whether students act on tutor feedback and whether those actions are applied correctly. Using this framework to compare two deployed AI tutors across different semesters in a large-scale introductory computer science course reveals substantial differences in student engagement patterns that are not captured by pedagogy-only evaluation. Moreover, these engagement-based behavioral signals are more strongly associated with student perception of helpful feedback than pedagogical quality alone, providing a more complete and actionable picture of AI tutor performance.
Abstract（参考訳）: 現在の人工知能(AI)ベースのチューターシステム(AIチューター)は、主にフィードバックメッセージの教育的品質に基づいて評価される。重要な問題を無視しているため、教育だけでは不十分だ。学生が実際に受け取ったフィードバックはどうなるのか? 我々は,教育的評価を補完する,学生のインタラクションデータに基づく行動次元で,AI教師の評価を拡張すべきであると主張している。そこで本研究では,初等科目プログラミングコースからAIチューターフィードバックを入力した10,235個のコードに対して,学生がチューターフィードバックを実行しているかどうか,その動作が正しく適用されているかどうかを判定する評価フレームワークを提案する。このフレームワークを使用して、大規模な導入コンピュータサイエンスコースにおいて、異なるセマタをまたいだ2つのデプロイされたAIチューターを比較することで、教育のみの評価では捉えられない学生のエンゲージメントパターンのかなりの違いが明らかになる。さらに、これらのエンゲージメントに基づく行動信号は、教育的品質だけでなく、学生の有用なフィードバックに対する認識と強く結びついており、AI教師のパフォーマンスをより完全で行動可能な画像を提供する。

関連論文リスト

UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文参考訳（メタデータ） (2025-11-12T01:27:02Z)
Human or AI? Comparing Design Thinking Assessments by Teaching Assistants and Bots [0.38233569758620045]
本研究では,デザイン思考教育における学生ポスター評価におけるTA支援評価と比較して,AI支援評価の信頼性と精度について検討した。その結果、インストラクターとAIによる共感点と痛み点の統計的一致は低く、視覚コミュニケーションのアライメントはわずかに高かった。この研究は、計算効率と人間の洞察を統合するハイブリッドアセスメントモデルの必要性を強調している。
論文参考訳（メタデータ） (2025-10-17T07:09:21Z)
Bridging Gaps Between Student and Expert Evaluations of AI-Generated Programming Hints [21.254611931654132]
我々は,学生や専門家の視点から,示唆されるヒント品質のミスマッチについて検討した。これらのギャップを埋める潜在的な方法に関する予備的な結果を提案し,議論する。
論文参考訳（メタデータ） (2025-09-03T12:38:35Z)
MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。 MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文参考訳（メタデータ） (2025-02-26T08:43:47Z)
Representational Alignment Supports Effective Machine Teaching [81.19197059407121]
GRADEは、教育と表現的アライメントを研究するための新しい制御された実験環境である。学生との表現的整合性が向上し,生徒の学習成果が向上することがわかった。しかし、この効果は、教えられているクラスのサイズと表現の多様性によって中和される。
論文参考訳（メタデータ） (2024-06-06T17:48:24Z)
Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文参考訳（メタデータ） (2024-03-05T09:09:15Z)
Identifying Student Profiles Within Online Judge Systems Using Explainable Artificial Intelligence [6.638206014723678]
オンライン審査員(OJ)システムは通常、学生によって開発されたコードの高速かつ客観的な評価を得られるため、プログラミング関連のコースの中で考慮される。本研究の目的は,OJが収集した情報のさらなる活用を考慮し,学生とインストラクターの両方のフィードバックを自動的に推測することで,この制限に対処することである。
論文参考訳（メタデータ） (2024-01-29T12:11:30Z)
Revealing Networks: Understanding Effective Teacher Practices in AI-Supported Classrooms using Transmodal Ordered Network Analysis [0.9187505256430948]
本研究は,AI教師と連携した数学教室において,システム内学習の伝統的な指標に関連する効果的な教員の実践を理解するために,トランスモーダル順序ネットワーク分析を用いた。教師の実践を学生の学習率で比較すると,低学率の生徒はモニタリング後,より有意な使用感を示した。学習率の低い生徒は、高学率の学生と同様の学習行動を示し、教師の正しい試みを繰り返した。
論文参考訳（メタデータ） (2023-12-17T21:50:02Z)
MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文参考訳（メタデータ） (2023-05-23T21:44:56Z)
Assessment Modeling: Fundamental Pre-training Tasks for Interactive Educational Systems [3.269851859258154]
ラベルスカース問題を回避する一般的な方法は、学習項目の内容の表現を学習するためのモデルを事前学習することである。本稿では,総合的な対話型教育システムのための基礎的事前学習課題のクラスであるアセスメント・モデリングを提案する。
論文参考訳（メタデータ） (2020-01-01T02:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。