論文の概要: TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students
- arxiv url: http://arxiv.org/abs/2505.01563v1
- Date: Fri, 02 May 2025 20:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.176522
- Title: TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students
- Title(参考訳): TutorGym:AIエージェントをチューターと学生として評価するためのテストベッド
- Authors: Daniel Weitekamp, Momin N. Siddiqui, Christopher J. MacLellan,
- Abstract要約: TutorGymは、人工知能(AI)エージェントを既存の知的チューリングシステム(ITS)内でテストするための標準インターフェースである。
問題解決の各ステップでは、AIエージェントが教師や学習者として何をするかを尋ねられる。
学生として、エージェントはITS命令から直接学習し、その誤りや学習軌跡を学生データと比較することができる。
- 参考スコア(独自算出の注目度): 0.283600654802951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent improvements in large language model (LLM) performance on academic benchmarks, such as MATH and GSM8K, have emboldened their use as standalone tutors and as simulations of human learning. However, these new applications require more than evaluations of final solution generation. We introduce TutorGym to evaluate these applications more directly. TutorGym is a standard interface for testing artificial intelligence (AI) agents within existing intelligent tutoring systems (ITS) that have been tested and refined in classroom studies, including Cognitive Tutors (CTAT), Apprentice Tutors, and OATutors. TutorGym is more than a simple problem-solution benchmark, it situates AI agents within the interactive interfaces of existing ITSs. At each step of problem-solving, AI agents are asked what they would do as a tutor or as a learner. As tutors, AI agents are prompted to provide tutoring support -- such as generating examples, hints, and step-level correctness feedback -- which can be evaluated directly against the adaptive step-by-step support provided by existing ITSs. As students, agents directly learn from ITS instruction, and their mistakes and learning trajectories can be compared to student data. TutorGym establishes a common framework for training and evaluating diverse AI agents, including LLMs, computational models of learning, and reinforcement learning agents, within a growing suite of learning environments. Currently, TutorGym includes 223 different tutor domains. In an initial evaluation, we find that current LLMs are poor at tutoring -- none did better than chance at labeling incorrect actions, and next-step actions were correct only ~52-70% of the time -- but they could produce remarkably human-like learning curves when trained as students with in-context learning.
- Abstract(参考訳): MATHやGSM8Kといった学術ベンチマークにおける大規模言語モデル(LLM)の性能向上は、独立したチューターや人間の学習シミュレーションとしての使用を象徴している。
しかし、これらの新しいアプリケーションは最終解生成の評価以上のものを必要としている。
より直接的にこれらのアプリケーションを評価するためにTutorGymを導入します。
TutorGymは、Cognitive Tutors(CTAT)、Apprentice Tutors(英語版)、OATutors(英語版)などの教室でテストされ、洗練されている既存の知的チューリングシステム(ITS)内で人工知能(AI)エージェントをテストするための標準インターフェースである。
TutorGymは単なる問題解決ベンチマーク以上のもので、既存のITSのインタラクティブインターフェース内にAIエージェントを配置する。
問題解決の各ステップでは、AIエージェントが教師や学習者として何をするかを尋ねられる。
家庭教師として、AIエージェントは、例、ヒント、ステップレベルの正当性フィードバックなど、既存のITSが提供する適応的なステップバイステップのサポートに対して直接評価可能なトレーニングサポートを提供するよう促される。
学生として、エージェントはITS命令から直接学習し、その誤りや学習軌跡を学生データと比較することができる。
TutorGymは、成長を続ける学習環境の中で、LLM、学習の計算モデル、強化学習エージェントを含む多様なAIエージェントのトレーニングと評価のための共通のフレームワークを確立する。
現在TutorGymには223の異なるチュータードメインがある。
最初の評価では、現在のLLMはチュータリングが苦手であり、間違ったアクションをラベル付けする機会に勝るものはなく、次のステップのアクションはわずか52~70%の時間で正しかった。
関連論文リスト
- Do Tutors Learn from Equity Training and Can Generative AI Assess It? [2.116573423199236]
本研究では,教師のスキル向上のためのオンライン授業において,教師のパフォーマンスを評価する。
教師の自己報告による知識への信頼度の増加に伴い,学習の習得率が著しく向上することがわかった。
この作業では、レッスンログデータ、チューター応答、人間のアノテーション用のルーブリック、生成AIプロンプトのデータセットが利用可能になる。
論文 参考訳(メタデータ) (2024-12-15T17:36:40Z) - AI2T: Building Trustable AI Tutors by Interactively Teaching a Self-Aware Learning Agent [2.0937431058291933]
著者は、ステップバイステップのソリューションを提供し、AI2T独自の問題解決の試みをグレードすることで、AI2Tを指導する。
わずか20~30分間のインタラクティブトレーニングから、AI2Tはステップバイステップのソリューショントラッキングのための堅牢なルールを導き出すことができる。
論文 参考訳(メタデータ) (2024-11-26T22:39:11Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - AI-Tutoring in Software Engineering Education [0.7631288333466648]
我々は,GPT-3.5-TurboモデルをAI-TutorとしてAPASアルテミスに組み込むことで,探索的なケーススタディを行った。
この発見は、タイムリーなフィードバックやスケーラビリティといった利点を浮き彫りにしている。
しかし,AI-Tutor を用いた場合,一般的な応答や学習進行抑制に対する学生の懸念も明らかであった。
論文 参考訳(メタデータ) (2024-04-03T08:15:08Z) - Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education [0.13654846342364302]
本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
論文 参考訳(メタデータ) (2024-01-02T03:54:50Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。