論文の概要: EduPersona: Benchmarking Subjective Ability Boundaries of Virtual Student Agents
- arxiv url: http://arxiv.org/abs/2510.04648v1
- Date: Mon, 06 Oct 2025 09:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.793898
- Title: EduPersona: Benchmarking Subjective Ability Boundaries of Virtual Student Agents
- Title(参考訳): EduPersona: 仮想学生エージェントの主観的能力境界のベンチマーク
- Authors: Buyuan Zhu, Shiyu Hu, Yiping Ma, Yuanming Zhang, Kang Hao Cheong,
- Abstract要約: EduPersonaは、2つの言語、3つの主題、10のペルソナタイプにまたがる大規模なベンチマークである。
このデータセットには1,308の教室対話ラウンドがあり、12,814人の教師によるQ&Aターンに対応している。
主観的パフォーマンスを3つのプログレッシブなタスク(TASK1基本コヒーレンス、TASK2学生リアリズム、TASK3長期的ペルソナ一貫性)に分解する。
- 参考スコア(独自算出の注目度): 13.739369395697473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models are increasingly integrated into education, virtual student agents are becoming vital for classroom simulation and teacher training. Yet their classroom-oriented subjective abilities remain largely unassessed, limiting understanding of model boundaries and hindering trustworthy deployment. We present EduPersona, a large-scale benchmark spanning two languages, three subjects, and ten persona types based on the Big Five theory. The dataset contains 1,308 authentic classroom dialogue rounds, corresponding to 12,814 teacher-student Q&A turns, and is further expanded through persona stylization into roughly 10 times larger scale (128k turns), providing a solid foundation for evaluation. Building on this resource, we decompose hard-to-quantify subjective performance into three progressive tasks: TASK1 basic coherence (whether behavior, emotion, expression, and voice align with classroom context), TASK2 student realism, and TASK3 long-term persona consistency, thereby establishing an evaluation framework grounded in educational theory and research value. We conduct systematic experiments on three representative LLMs, comparing their original versions with ten persona-fine-tuned variants trained on EduPersona. Results show consistent and significant average improvements across all tasks: TASK1 +33.6%, TASK2 +30.6%, and TASK3 +14.9%. These improvements highlight the dataset's effectiveness and research value, while also revealing the heterogeneous difficulty of persona modeling. In summary, EduPersona delivers the first classroom benchmark centered on subjective abilities, establishes a decoupled and verifiable research paradigm, and we will open-source both the dataset and the framework to support the broader research community in advancing trustworthy and human-like AI for education.
- Abstract(参考訳): 大規模な言語モデルが教育に統合されるにつれて、仮想学生エージェントは教室のシミュレーションや教師の訓練に欠かせない存在になりつつある。
しかし、彼らの教室指向の主観的能力は、モデル境界の理解を制限し、信頼できるデプロイメントを妨げる、ほとんど未評価のままである。
EduPersonaは、ビッグファイブ理論に基づく2つの言語、3つの主題、10のペルソナタイプにまたがる大規模なベンチマークである。
このデータセットは1,308の教室対話ラウンドを含み、12,814人の教師によるQ&Aターンに対応し、ペルソナのスタイリゼーションによっておよそ10倍のスケール(128kターン)に拡張され、評価の基礎となる。
本資料に基づいて, 主観的パフォーマンスを3つの段階的課題に分解する。TASK1の基本的コヒーレンス(行動, 感情, 表情, 音声整合性など), TASK2学生リアリズム, TASK3長期的ペルソナ整合性, 教育理論と研究価値に基づく評価枠組みを確立する。
EduPersonaで訓練した10種類の人体微調整版と比較し,3種類のLLMの系統的実験を行った。
TASK1 +33.6%、TASK2 +30.6%、TASK3 +14.9%である。
これらの改善は、データセットの有効性と研究価値を強調し、ペルソナモデリングの不均一な難しさを明らかにしている。
まとめると、EduPersonaは、主観的能力を中心とした最初の教室ベンチマークを提供し、分離された検証可能な研究パラダイムを確立します。
関連論文リスト
- Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [119.52829803686319]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - Human-Centric Evaluation for Foundation Models [31.400215906308546]
本稿では,問題解決能力,情報品質,インタラクション体験の3つの要素に着目した人間中心型主観評価フレームワークを提案する。
我々は540以上の参加者主導による評価を行い、人間とモデルはオープンエンドの研究タスクで協力する。
この結果からGrok 3の優れたパフォーマンスが注目され、続いてDeepseek R1とGemini 2.5が続き、OpenAI o3が遅れています。
論文 参考訳(メタデータ) (2025-06-02T15:33:29Z) - EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios [41.370448581863194]
教育シナリオに適した最初の多様なベンチマークを紹介します。
本稿では,教師と学生の両方に関係のある12つの重要な側面をカバーする多次元評価指標を提案する。
構築したデータセット上で比較的小規模なモデルをトレーニングし、最先端の大規模モデルに匹敵するパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-05-22T03:01:28Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - When LLMs Learn to be Students: The SOEI Framework for Modeling and Evaluating Virtual Student Agents in Educational Interaction [12.070907646464537]
教室シナリオにおける人格対応型仮想学生エージェント(LVSA)の構築と評価のためのSOEIフレームワークを提案する。
LoRAファインチューニングとエキスパートインフォームドプロンプト設計により,5つのLVSAをBig Five特性に基づいて生成する。
その結果,(1)LLMをベースとした学生エージェントのための教育的,心理的に基盤とした生成パイプライン,(2)行動リアリズムのためのハイブリッドでスケーラブルな評価フレームワーク,(3)LVSAsの教育的有用性に関する実証的な知見が得られた。
論文 参考訳(メタデータ) (2024-10-21T07:18:24Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。