論文の概要: EduPersona: Benchmarking Subjective Ability Boundaries of Virtual Student Agents
- arxiv url: http://arxiv.org/abs/2510.04648v1
- Date: Mon, 06 Oct 2025 09:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.793898
- Title: EduPersona: Benchmarking Subjective Ability Boundaries of Virtual Student Agents
- Title(参考訳): EduPersona: 仮想学生エージェントの主観的能力境界のベンチマーク
- Authors: Buyuan Zhu, Shiyu Hu, Yiping Ma, Yuanming Zhang, Kang Hao Cheong,
- Abstract要約: EduPersonaは、2つの言語、3つの主題、10のペルソナタイプにまたがる大規模なベンチマークである。
このデータセットには1,308の教室対話ラウンドがあり、12,814人の教師によるQ&Aターンに対応している。
主観的パフォーマンスを3つのプログレッシブなタスク(TASK1基本コヒーレンス、TASK2学生リアリズム、TASK3長期的ペルソナ一貫性)に分解する。
- 参考スコア(独自算出の注目度): 13.739369395697473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models are increasingly integrated into education, virtual student agents are becoming vital for classroom simulation and teacher training. Yet their classroom-oriented subjective abilities remain largely unassessed, limiting understanding of model boundaries and hindering trustworthy deployment. We present EduPersona, a large-scale benchmark spanning two languages, three subjects, and ten persona types based on the Big Five theory. The dataset contains 1,308 authentic classroom dialogue rounds, corresponding to 12,814 teacher-student Q&A turns, and is further expanded through persona stylization into roughly 10 times larger scale (128k turns), providing a solid foundation for evaluation. Building on this resource, we decompose hard-to-quantify subjective performance into three progressive tasks: TASK1 basic coherence (whether behavior, emotion, expression, and voice align with classroom context), TASK2 student realism, and TASK3 long-term persona consistency, thereby establishing an evaluation framework grounded in educational theory and research value. We conduct systematic experiments on three representative LLMs, comparing their original versions with ten persona-fine-tuned variants trained on EduPersona. Results show consistent and significant average improvements across all tasks: TASK1 +33.6%, TASK2 +30.6%, and TASK3 +14.9%. These improvements highlight the dataset's effectiveness and research value, while also revealing the heterogeneous difficulty of persona modeling. In summary, EduPersona delivers the first classroom benchmark centered on subjective abilities, establishes a decoupled and verifiable research paradigm, and we will open-source both the dataset and the framework to support the broader research community in advancing trustworthy and human-like AI for education.
- Abstract(参考訳): 大規模な言語モデルが教育に統合されるにつれて、仮想学生エージェントは教室のシミュレーションや教師の訓練に欠かせない存在になりつつある。
しかし、彼らの教室指向の主観的能力は、モデル境界の理解を制限し、信頼できるデプロイメントを妨げる、ほとんど未評価のままである。
EduPersonaは、ビッグファイブ理論に基づく2つの言語、3つの主題、10のペルソナタイプにまたがる大規模なベンチマークである。
このデータセットは1,308の教室対話ラウンドを含み、12,814人の教師によるQ&Aターンに対応し、ペルソナのスタイリゼーションによっておよそ10倍のスケール(128kターン)に拡張され、評価の基礎となる。
本資料に基づいて, 主観的パフォーマンスを3つの段階的課題に分解する。TASK1の基本的コヒーレンス(行動, 感情, 表情, 音声整合性など), TASK2学生リアリズム, TASK3長期的ペルソナ整合性, 教育理論と研究価値に基づく評価枠組みを確立する。
EduPersonaで訓練した10種類の人体微調整版と比較し,3種類のLLMの系統的実験を行った。
TASK1 +33.6%、TASK2 +30.6%、TASK3 +14.9%である。
これらの改善は、データセットの有効性と研究価値を強調し、ペルソナモデリングの不均一な難しさを明らかにしている。
まとめると、EduPersonaは、主観的能力を中心とした最初の教室ベンチマークを提供し、分離された検証可能な研究パラダイムを確立します。
関連論文リスト
- CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models [55.0103764229311]
本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
論文 参考訳(メタデータ) (2026-02-05T13:13:19Z) - A Survey on Efficient Vision-Language-Action Models [153.11669266922993]
VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。
これらの課題に緊急に対応する必要性から、この調査は、効率的なビジョン・ランゲージ・アクションモデルに関する最初の包括的なレビューを提示する。
論文 参考訳(メタデータ) (2025-10-27T17:57:33Z) - Human or AI? Comparing Design Thinking Assessments by Teaching Assistants and Bots [0.38233569758620045]
本研究では,デザイン思考教育における学生ポスター評価におけるTA支援評価と比較して,AI支援評価の信頼性と精度について検討した。
その結果、インストラクターとAIによる共感点と痛み点の統計的一致は低く、視覚コミュニケーションのアライメントはわずかに高かった。
この研究は、計算効率と人間の洞察を統合するハイブリッドアセスメントモデルの必要性を強調している。
論文 参考訳(メタデータ) (2025-10-17T07:09:21Z) - EduDial: Constructing a Large-scale Multi-turn Teacher-Student Dialogue Corpus [59.693733170193944]
EduDialは総合的な多ターン教師/学生対話データセットである。
EduDialは345のコアナレッジポイントをカバーし、教師と学生エージェントの対話によって生成された34,250の対話セッションで構成されている。
論文 参考訳(メタデータ) (2025-10-14T18:18:43Z) - Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [119.52829803686319]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文 参考訳(メタデータ) (2025-09-02T14:21:59Z) - Human-Centric Evaluation for Foundation Models [31.400215906308546]
本稿では,問題解決能力,情報品質,インタラクション体験の3つの要素に着目した人間中心型主観評価フレームワークを提案する。
我々は540以上の参加者主導による評価を行い、人間とモデルはオープンエンドの研究タスクで協力する。
この結果からGrok 3の優れたパフォーマンスが注目され、続いてDeepseek R1とGemini 2.5が続き、OpenAI o3が遅れています。
論文 参考訳(メタデータ) (2025-06-02T15:33:29Z) - EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios [41.370448581863194]
教育シナリオに適した最初の多様なベンチマークを紹介します。
本稿では,教師と学生の両方に関係のある12つの重要な側面をカバーする多次元評価指標を提案する。
構築したデータセット上で比較的小規模なモデルをトレーニングし、最先端の大規模モデルに匹敵するパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-05-22T03:01:28Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - When LLMs Learn to be Students: The SOEI Framework for Modeling and Evaluating Virtual Student Agents in Educational Interaction [12.070907646464537]
教室シナリオにおける人格対応型仮想学生エージェント(LVSA)の構築と評価のためのSOEIフレームワークを提案する。
LoRAファインチューニングとエキスパートインフォームドプロンプト設計により,5つのLVSAをBig Five特性に基づいて生成する。
その結果,(1)LLMをベースとした学生エージェントのための教育的,心理的に基盤とした生成パイプライン,(2)行動リアリズムのためのハイブリッドでスケーラブルな評価フレームワーク,(3)LVSAsの教育的有用性に関する実証的な知見が得られた。
論文 参考訳(メタデータ) (2024-10-21T07:18:24Z) - Student Data Paradox and Curious Case of Single Student-Tutor Model: Regressive Side Effects of Training LLMs for Personalized Learning [25.90420385230675]
パーソナライズされた教育の追求は、知的学習システムの開発におけるLarge Language Models(LLM)の統合につながった。
我々の研究は、このアプローチの根本的な課題を明らかにする:学生データパラドックス」
このパラドックスは、学習者の行動を理解するために学生データに基づいて訓練されたLLMが、故意に自身の事実的知識と推論能力を損なうときに現れる。
論文 参考訳(メタデータ) (2024-04-23T15:57:55Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。