Fugu-MT 論文翻訳(概要): TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students

論文の概要: TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students

arxiv url: http://arxiv.org/abs/2505.01563v1
Date: Fri, 02 May 2025 20:03:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.176522
Title: TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students
Title（参考訳）: TutorGym:AIエージェントをチューターと学生として評価するためのテストベッド
Authors: Daniel Weitekamp, Momin N. Siddiqui, Christopher J. MacLellan,
Abstract要約: TutorGymは、人工知能(AI)エージェントを既存の知的チューリングシステム(ITS)内でテストするための標準インターフェースである。問題解決の各ステップでは、AIエージェントが教師や学習者として何をするかを尋ねられる。学生として、エージェントはITS命令から直接学習し、その誤りや学習軌跡を学生データと比較することができる。
参考スコア（独自算出の注目度）: 0.283600654802951
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent improvements in large language model (LLM) performance on academic benchmarks, such as MATH and GSM8K, have emboldened their use as standalone tutors and as simulations of human learning. However, these new applications require more than evaluations of final solution generation. We introduce TutorGym to evaluate these applications more directly. TutorGym is a standard interface for testing artificial intelligence (AI) agents within existing intelligent tutoring systems (ITS) that have been tested and refined in classroom studies, including Cognitive Tutors (CTAT), Apprentice Tutors, and OATutors. TutorGym is more than a simple problem-solution benchmark, it situates AI agents within the interactive interfaces of existing ITSs. At each step of problem-solving, AI agents are asked what they would do as a tutor or as a learner. As tutors, AI agents are prompted to provide tutoring support -- such as generating examples, hints, and step-level correctness feedback -- which can be evaluated directly against the adaptive step-by-step support provided by existing ITSs. As students, agents directly learn from ITS instruction, and their mistakes and learning trajectories can be compared to student data. TutorGym establishes a common framework for training and evaluating diverse AI agents, including LLMs, computational models of learning, and reinforcement learning agents, within a growing suite of learning environments. Currently, TutorGym includes 223 different tutor domains. In an initial evaluation, we find that current LLMs are poor at tutoring -- none did better than chance at labeling incorrect actions, and next-step actions were correct only ~52-70% of the time -- but they could produce remarkably human-like learning curves when trained as students with in-context learning.
Abstract（参考訳）: MATHやGSM8Kといった学術ベンチマークにおける大規模言語モデル(LLM)の性能向上は、独立したチューターや人間の学習シミュレーションとしての使用を象徴している。しかし、これらの新しいアプリケーションは最終解生成の評価以上のものを必要としている。より直接的にこれらのアプリケーションを評価するためにTutorGymを導入します。 TutorGymは、Cognitive Tutors(CTAT)、Apprentice Tutors(英語版)、OATutors(英語版)などの教室でテストされ、洗練されている既存の知的チューリングシステム(ITS)内で人工知能(AI)エージェントをテストするための標準インターフェースである。 TutorGymは単なる問題解決ベンチマーク以上のもので、既存のITSのインタラクティブインターフェース内にAIエージェントを配置する。問題解決の各ステップでは、AIエージェントが教師や学習者として何をするかを尋ねられる。家庭教師として、AIエージェントは、例、ヒント、ステップレベルの正当性フィードバックなど、既存のITSが提供する適応的なステップバイステップのサポートに対して直接評価可能なトレーニングサポートを提供するよう促される。学生として、エージェントはITS命令から直接学習し、その誤りや学習軌跡を学生データと比較することができる。 TutorGymは、成長を続ける学習環境の中で、LLM、学習の計算モデル、強化学習エージェントを含む多様なAIエージェントのトレーニングと評価のための共通のフレームワークを確立する。現在TutorGymには223の異なるチュータードメインがある。最初の評価では、現在のLLMはチュータリングが苦手であり、間違ったアクションをラベル付けする機会に勝るものはなく、次のステップのアクションはわずか52～70%の時間で正しかった。

関連論文リスト

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文参考訳（メタデータ） (2025-08-06T17:58:46Z)
InqEduAgent: Adaptive AI Learning Partners with Gaussian Process Augmentation [4.96669107440958]
本稿では,探索指向学習に適した学習パートナーをシミュレートし,選択するための LLM を利用したエージェントモデルを提案する。生成エージェントは、現実世界のシナリオにおける学習者の認知的・評価的特徴を捉えるように設計されている。実験の結果,ほとんどの知識学習シナリオやLLM環境において,InqEduAgentの最適性能が示された。
論文参考訳（メタデータ） (2025-08-05T07:33:48Z)
Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [66.1850490474361]
コーディングエージェントとの開発者インタラクションを探求する最初の学術的研究を行う。私たちは、GitHub CopilotとOpenHandsの2つの主要なコピロとエージェントコーディングアシスタントを評価します。この結果から、エージェントは、コピロトを超越した方法で開発者を支援する可能性を示唆している。
論文参考訳（メタデータ） (2025-07-10T20:12:54Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
Do Tutors Learn from Equity Training and Can Generative AI Assess It? [2.116573423199236]
本研究では,教師のスキル向上のためのオンライン授業において,教師のパフォーマンスを評価する。教師の自己報告による知識への信頼度の増加に伴い,学習の習得率が著しく向上することがわかった。この作業では、レッスンログデータ、チューター応答、人間のアノテーション用のルーブリック、生成AIプロンプトのデータセットが利用可能になる。
論文参考訳（メタデータ） (2024-12-15T17:36:40Z)
AI2T: Building Trustable AI Tutors by Interactively Teaching a Self-Aware Learning Agent [2.0937431058291933]
著者は、ステップバイステップのソリューションを提供し、AI2T独自の問題解決の試みをグレードすることで、AI2Tを指導する。わずか20～30分間のインタラクティブトレーニングから、AI2Tはステップバイステップのソリューショントラッキングのための堅牢なルールを導き出すことができる。
論文参考訳（メタデータ） (2024-11-26T22:39:11Z)
ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文参考訳（メタデータ） (2024-10-02T21:42:35Z)
AI-Tutoring in Software Engineering Education [0.7631288333466648]
我々は,GPT-3.5-TurboモデルをAI-TutorとしてAPASアルテミスに組み込むことで,探索的なケーススタディを行った。この発見は、タイムリーなフィードバックやスケーラビリティといった利点を浮き彫りにしている。しかし,AI-Tutor を用いた場合,一般的な応答や学習進行抑制に対する学生の懸念も明らかであった。
論文参考訳（メタデータ） (2024-04-03T08:15:08Z)
Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-29T23:38:28Z)
Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education [0.13654846342364302]
本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。 GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。教育、評価、教育におけるAIの約束は明確だが、課題は残る。
論文参考訳（メタデータ） (2024-01-02T03:54:50Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。