論文の概要: Findings of the BEA 2025 Shared Task on Pedagogical Ability Assessment of AI-powered Tutors
- arxiv url: http://arxiv.org/abs/2507.10579v1
- Date: Fri, 11 Jul 2025 10:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.742965
- Title: Findings of the BEA 2025 Shared Task on Pedagogical Ability Assessment of AI-powered Tutors
- Title(参考訳): AIを用いたチュータの教育能力評価におけるBEA 2025共有タスクの発見
- Authors: Ekaterina Kochmar, Kaushal Kumar Maurya, Kseniia Petukhova, KV Aditya Srivatsa, Anaïs Tack, Justin Vasselli,
- Abstract要約: このタスクは、AIチューターのパフォーマンスを、誤識別の重要な次元にわたって自動的に評価するように設計された5つのトラックで構成されている。
4つの教育能力評価トラックの最良の結果は、マクロF1スコア58.34(ガイダンス提供)と3クラスの問題に対する71.81(誤識別)の範囲である。
- 参考スコア(独自算出の注目度): 6.891852148875869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This shared task has aimed to assess pedagogical abilities of AI tutors powered by large language models (LLMs), focusing on evaluating the quality of tutor responses aimed at student's mistake remediation within educational dialogues. The task consisted of five tracks designed to automatically evaluate the AI tutor's performance across key dimensions of mistake identification, precise location of the mistake, providing guidance, and feedback actionability, grounded in learning science principles that define good and effective tutor responses, as well as the track focusing on detection of the tutor identity. The task attracted over 50 international teams across all tracks. The submitted models were evaluated against gold-standard human annotations, and the results, while promising, show that there is still significant room for improvement in this domain: the best results for the four pedagogical ability assessment tracks range between macro F1 scores of 58.34 (for providing guidance) and 71.81 (for mistake identification) on three-class problems, with the best F1 score in the tutor identification track reaching 96.98 on a 9-class task. In this paper, we overview the main findings of the shared task, discuss the approaches taken by the teams, and analyze their performance. All resources associated with this task are made publicly available to support future research in this critical domain.
- Abstract(参考訳): この共有タスクは,大規模言語モデル(LLM)を用いたAI教師の教育的能力を評価することを目的として,学生の教育対話における誤り修復を目的とした教師応答の質を評価することを目的としている。
このタスクは、AI教師のパフォーマンスを、ミス識別、ミスの正確な位置、ガイダンスの提供、フィードバックの動作性といった重要な範囲で自動的に評価するように設計された5つのトラックで構成され、優れた効果的なチューター応答を定義する科学の原則と、チューターのアイデンティティの検出に焦点を当てたトラックで構成された。
全線に50以上の国際チームが参加した。
提案したモデルは,ゴールドスタンダードな人的アノテーションに対して評価され,有望ではあるが,この領域にはまだ改善の余地があることが示唆された。4つの教育能力評価トラックにおいて,マクロF1スコア58.34(ガイダンス提供用)と3クラス問題71.81(誤識別用)の4つの評価トラックに対して,チューター識別トラックのF1スコアが9クラスで96.98に到達した。
本稿では,共有タスクの主な成果を概説し,チームによるアプローチについて議論し,そのパフォーマンスを解析する。
このタスクに関連するすべてのリソースは、この重要な領域における将来の研究をサポートするために公開されています。
関連論文リスト
- Leveraging LLMs to Assess Tutor Moves in Real-Life Dialogues: A Feasibility Study [3.976073625291173]
数学における中学生を支援する大学学生遠隔教師の無作為に選択した50文字の解析を行った。
GPT-4, GPT-4o, GPT-4-turbo, Gemini-1.5-pro, LearnLM を用いて,教師の2つの指導スキルの適用性を評価する。
論文 参考訳(メタデータ) (2025-06-20T18:13:33Z) - IHEval: Evaluating Language Models on Following the Instruction Hierarchy [67.33509094445104]
命令階層は、システムメッセージからユーザメッセージ、会話履歴、ツール出力への優先順位を定めている。
その重要性にもかかわらず、このトピックは限定的な注目を集めており、命令階層に従うモデルの能力を評価するための包括的なベンチマークが欠如している。
IHEvalは、異なる優先順位の命令が一致または矛盾するケースをカバーする、新しいベンチマークです。
論文 参考訳(メタデータ) (2025-02-12T19:35:28Z) - Do Tutors Learn from Equity Training and Can Generative AI Assess It? [2.116573423199236]
本研究では,教師のスキル向上のためのオンライン授業において,教師のパフォーマンスを評価する。
教師の自己報告による知識への信頼度の増加に伴い,学習の習得率が著しく向上することがわかった。
この作業では、レッスンログデータ、チューター応答、人間のアノテーション用のルーブリック、生成AIプロンプトのデータセットが利用可能になる。
論文 参考訳(メタデータ) (2024-12-15T17:36:40Z) - Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors [7.834688858839734]
我々は,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効かどうかを検討する。
本研究では,キーラーニング科学の原則に基づく8つの教育次元を持つ統一的な評価分類法を提案する。
MRBench - 192の会話と1,596の回答を含む新しい評価ベンチマーク。
論文 参考訳(メタデータ) (2024-12-12T16:24:35Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Automated Assessment of Encouragement and Warmth in Classrooms Leveraging Multimodal Emotional Features and ChatGPT [7.273857543125784]
本研究は,教室における暖かさと励ましを自動的に推定するマルチモーダルアプローチである。
映像,音声,転写データから解釈可能な特徴を抽出するために,感情分析を用いた顔と音声の感情認識を用いた。
92の授業記録から367の16分間のビデオセグメントを含むGTIデータセットに対するアプローチを実証した。
論文 参考訳(メタデータ) (2024-04-01T16:58:09Z) - Comparative Analysis of GPT-4 and Human Graders in Evaluating Praise
Given to Students in Synthetic Dialogues [2.3361634876233817]
AIチャットボットChatGPTのような大規模な言語モデルは、実践的な設定で家庭教師に建設的なフィードバックを提供する可能性を秘めている。
AIが生成したフィードバックの正確性はまだ不明であり、ChatGPTのようなモデルが効果的なフィードバックを提供する能力について研究している。
論文 参考訳(メタデータ) (2023-07-05T04:14:01Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。