論文の概要: When AI Meets Early Childhood Education: Large Language Models as Assessment Teammates in Chinese Preschools
- arxiv url: http://arxiv.org/abs/2603.24389v1
- Date: Wed, 25 Mar 2026 15:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.350758
- Title: When AI Meets Early Childhood Education: Large Language Models as Assessment Teammates in Chinese Preschools
- Title(参考訳): AIが幼児教育と出会う時--中国の幼児期におけるチームメイトの評価としての大規模言語モデル
- Authors: Xingming Li, Runke Huang, Yanan Bao, Yuye Jin, Yuru Jiao, Qingyong Hu,
- Abstract要約: 高品質な教師子交流(TCI)は、幼児期の発達に欠かせないものであるが、従来の専門家による評価は、重要なスケーラビリティの課題に直面している。
中国のような大規模システムでは、25万人以上の幼稚園で3600万人の子どもが利用されており、手作業による観察のコストと時間要件は、継続的な品質監視を不可能にしている。
本稿では,AIが構造化された品質指標を抽出し,人間の専門家による判断との整合性を検証することによって,スケーラブルな評価チームメイトとして機能するかどうかを検討する。
- 参考スコア(独自算出の注目度): 13.924636663725776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality teacher-child interaction (TCI) is fundamental to early childhood development, yet traditional expert-based assessment faces a critical scalability challenge. In large systems like China's-serving 36 million children across 250,000+ kindergartens-the cost and time requirements of manual observation make continuous quality monitoring infeasible, relegating assessment to infrequent episodic audits that limit timely intervention and improvement tracking. In this paper, we investigate whether AI can serve as a scalable assessment teammate by extracting structured quality indicators and validating their alignment with human expert judgments. Our contributions include: (1) TEPE-TCI-370h (Tracing Effective Preschool Education), the first large-scale dataset of naturalistic teacher-child interactions in Chinese preschools (370 hours, 105 classrooms) with standardized ECQRS-EC and SSTEW annotations; (2) We develop Interaction2Eval, a specialized LLM-based framework addressing domain-specific challenges-child speech recognition, Mandarin homophone disambiguation, and rubric-based reasoning-achieving up to 88% agreement; (3) Deployment validation across 43 classrooms demonstrating an 18x efficiency gain in the assessment workflow, highlighting its potential for shifting from annual expert audits to monthly AI-assisted monitoring with targeted human oversight. This work not only demonstrates the technical feasibility of scalable, AI-augmented quality assessment but also lays the foundation for a new paradigm in early childhood education-one where continuous, inclusive, AI-assisted evaluation becomes the engine of systemic improvement and equitable growth.
- Abstract(参考訳): 高品質な教師子交流(TCI)は、幼児期の発達に欠かせないものであるが、従来の専門家による評価は、重要なスケーラビリティの課題に直面している。
中国では、25万人以上の幼稚園で3600万人の子どもたちが、手作業による観察のコストと時間要件によって、継続的な品質監視が不可能になり、時間的介入と改善の追跡を制限した頻繁な監査に対する評価が低下している。
本稿では,AIが構造化された品質指標を抽出し,人間の専門家による判断との整合性を検証することによって,スケーラブルな評価チームメイトとして機能するかどうかを検討する。
1) TEPE-TCI-370h (Tracing Effective Preschool Education) は,中国初等教育における自然主義的な教師と児童の交流に関する最初の大規模データセット(370時間105教室)で,標準化されたECQRS-ECとSSTEWアノテーションを併用する。
この研究は、スケーラブルでAIが強化された品質評価の技術的実現可能性を示すだけでなく、継続的かつ包括的でAIが支援する評価が、体系的な改善と平等な成長のエンジンとなる、幼児教育における新しいパラダイムの基盤となる。
関連論文リスト
- Findings of the BEA 2025 Shared Task on Pedagogical Ability Assessment of AI-powered Tutors [6.891852148875869]
このタスクは、AIチューターのパフォーマンスを、誤識別の重要な次元にわたって自動的に評価するように設計された5つのトラックで構成されている。
4つの教育能力評価トラックの最良の結果は、マクロF1スコア58.34(ガイダンス提供)と3クラスの問題に対する71.81(誤識別)の範囲である。
論文 参考訳(メタデータ) (2025-07-11T10:57:36Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education [3.967610895056427]
本稿では,自然言語処理(NLP)技術を活用して,複数のハイ推論教育実践を評価するための最初の研究について述べる。
ノイズや長い入力データ、人間の評価の高度に歪んだ分布など、NLPに基づく指導分析に固有の2つの課題に直面している。
論文 参考訳(メタデータ) (2024-04-03T04:15:29Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。