論文の概要: Assessing the Pedagogical Readiness of Large Language Models as AI Tutors in Low-Resource Contexts: A Case Study of Nepal's K-10 Curriculum
- arxiv url: http://arxiv.org/abs/2604.09619v1
- Date: Tue, 17 Mar 2026 04:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.564551
- Title: Assessing the Pedagogical Readiness of Large Language Models as AI Tutors in Low-Resource Contexts: A Case Study of Nepal's K-10 Curriculum
- Title(参考訳): 低資源環境におけるAIチューターとしての大規模言語モデルの教育的準備性の評価:ネパールのK-10カリキュラムを事例として
- Authors: Pratyush Acharya, Prasansha Bharati, Yokibha Chapagain, Isha Sharma Gauli, Kiran Parajuli,
- Abstract要約: 大規模言語モデルの教育エコシステムへの統合は、パーソナライズされた家庭教師へのアクセスを民主化することを約束する。
本研究では,4つの最先端LLM--GPT-4o,Claude Sonnet 4,Qwen3-235B,Kim K2の系統的評価を行い,AI教師としての能力を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) into educational ecosystems promises to democratize access to personalized tutoring, yet the readiness of these systems for deployment in non-Western, low-resource contexts remains critically under-examined. This study presents a systematic evaluation of four state-of-the-art LLMs--GPT-4o, Claude Sonnet 4, Qwen3-235B, and Kimi K2--assessing their capacity to function as AI tutors within the specific curricular and cultural framework of Nepal's Grade 5-10 Science and Mathematics education. We introduce a novel, curriculum-aligned benchmark and a fine-grained evaluation framework inspired by the "natural language unit tests" paradigm, decomposing pedagogical efficacy into seven binary metrics: Prompt Alignment, Factual Correctness, Clarity, Contextual Relevance, Engagement, Harmful Content Avoidance, and Solution Accuracy. Our results reveal a stark "curriculum-alignment gap." While frontier models (GPT-4o, Claude Sonnet 4) achieve high aggregate reliability (approximately 97%), significant deficiencies persist in pedagogical clarity and cultural contextualization. We identify two pervasive failure modes: the "Expert's Curse," where models solve complex problems but fail to explain them clearly to novices, and the "Foundational Fallacy," where performance paradoxically degrades on simpler, lower-grade material due to an inability to adapt to younger learners' cognitive constraints. Furthermore, regional models like Kimi K2 exhibit a "Contextual Blindspot," failing to provide culturally relevant examples in over 20% of interactions. These findings suggest that off-the-shelf LLMs are not yet ready for autonomous deployment in Nepalese classrooms. We propose a "human-in-the-loop" deployment strategy and offer a methodological blueprint for curriculum-specific fine-tuning to align global AI capabilities with local educational needs.
- Abstract(参考訳): 教育エコシステムへのLLM(Large Language Models)の統合は、パーソナライズされたチュータへのアクセスを民主化することを約束するが、非西洋的で低リソースのコンテキストに配置するためのこれらのシステムの準備は、依然として極めて過小評価されている。
本研究は,ネパールの理・数学教育における特定のカリキュラムと文化の枠組みの中で,AI教師として機能する能力を評価するため,最先端の4つのLLM--GPT-4o,クロードソネット4,Qwen3-235B,キミK2を体系的に評価した。
本稿では,「自然言語単体テスト」パラダイムにインスパイアされた,新たなカリキュラム整合性ベンチマークと詳細な評価フレームワークを導入し,教育効果を7つのバイナリメトリクスに分解する。
我々の結果は「カリキュラムアライメントのギャップ」を暗示している。
フロンティアモデル(GPT-4o、Claude Sonnet 4)は高い集合信頼性(約97%)を達成する一方で、教育的明確性と文化的文脈化において重大な欠陥が持続する。
モデルが複雑な問題を解くが、初心者に明確に説明できないような"Expert's Curse"と、若い学習者の認知的制約に適応できないため、パフォーマンスがより単純で低い素材にパラドックス的に低下する"Foundational Fallacy"の2つを識別する。
さらに、Kim K2のような地域モデルは「コンテキストブランドスポット」を示しており、20%以上の相互作用において文化的に関連する例を提供していない。
これらの結果から, ネパールの教室において, 既設のLCMは, 自律的な展開の準備ができていないことが示唆された。
我々は,カリキュラム固有の微調整のための方法論的青写真を提供し,グローバルなAI能力をローカルな教育的ニーズと整合させる「ヒューマン・イン・ザ・ループ」デプロイメント戦略を提案する。
関連論文リスト
- Beyond Accuracy: Towards a Robust Evaluation Methodology for AI Systems for Language Education [0.0]
AIによる言語教育における大規模言語モデルの急速な採用は、教育的効果を評価するための評価を緊急に必要としてきた。
L2-Benchは、検証済みの「言語学習経験設計者」構築に基礎を置いた、新しい評価ベンチマークである。
本手法は,教育学理論,社会工学的AI評価手法を統合し,階層的な分類法を運用し,専門家が計算したデータセットを構築する。
論文 参考訳(メタデータ) (2026-03-20T16:13:03Z) - Making Large Language Models Speak Tulu: Structured Prompting for an Extremely Low-Resource Language [1.0742675209112622]
制御プロンプト下では,構造化プロンプトだけで基本的な会話能力を引き出すことができるかを検討する。
我々は、明示的な文法文書、関連する言語からの高確率トークンの抑制のための負の制約、ロマン化標準化、そして自己再生による品質制御された合成データ生成を組み合わせる。
本手法は,85%の精度で語彙汚染を80%から5%に低減する。
論文 参考訳(メタデータ) (2026-02-17T06:20:09Z) - OpenLearnLM Benchmark: A Unified Framework for Evaluating Knowledge, Skill, and Attitude in Educational Large Language Models [1.1375020040227939]
OpenLearnLM Benchmarkは、大規模な言語モデルを評価するフレームワークである。
本ベンチマークは、複数の科目、教育的役割、難易度にまたがる124K以上の項目からなる。
論文 参考訳(メタデータ) (2026-01-20T11:53:31Z) - PustakAI: Curriculum-Aligned and Interactive Textbooks Using Large Language Models [4.419156740280761]
LLM(Large Language Models)は、人間のようなコンテンツを理解し、生成する際、顕著な能力を示す。
我々は多くのインドの言語で「本」を意味する"PustakAI"footnotePustak"の枠組みを提示する。
メタプロンプト,少数ショット,CoTスタイルプロンプトなど,さまざまなプロンプト技術を用いてデータセットを評価する。
論文 参考訳(メタデータ) (2025-11-13T06:12:12Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。