論文の概要: Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension?
- arxiv url: http://arxiv.org/abs/2507.08232v1
- Date: Fri, 11 Jul 2025 00:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.207246
- Title: Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension?
- Title(参考訳): LLMは実生の算数能力と読解理解を確実にシミュレートできるか?
- Authors: KV Aditya Srivatsa, Kaushal Kumar Maurya, Ekaterina Kochmar,
- Abstract要約: 大規模言語モデル (LLMs) は、知能学習システム (ITSs) の開発において、代用学生としての利用が増えている。
我々は,4,8,12の数学と読解に関する全国教育進歩評価(NAEP)から,489項目のデータセットを収集した。
本研究では,11種類の多種多様かつ最先端のLLMを実生と同じ能力尺度に位置づけるために,IRTモデルを適用した。
- 参考スコア(独自算出の注目度): 8.558834738072363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as proxy students in the development of Intelligent Tutoring Systems (ITSs) and in piloting test questions. However, to what extent these proxy students accurately emulate the behavior and characteristics of real students remains an open question. To investigate this, we collected a dataset of 489 items from the National Assessment of Educational Progress (NAEP), covering mathematics and reading comprehension in grades 4, 8, and 12. We then apply an Item Response Theory (IRT) model to position 11 diverse and state-of-the-art LLMs on the same ability scale as real student populations. Our findings reveal that, without guidance, strong general-purpose models consistently outperform the average student at every grade, while weaker or domain-mismatched models may align incidentally. Using grade-enforcement prompts changes models' performance, but whether they align with the average grade-level student remains highly model- and prompt-specific: no evaluated model-prompt pair fits the bill across subjects and grades, underscoring the need for new training and evaluation strategies. We conclude by providing guidelines for the selection of viable proxies based on our findings.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、Intelligent Tutoring Systems (ITSs) の開発やテスト質問のパイロットテストにおいて、プロキシ学生としての利用が増えている。
しかし, 実際の学生の行動や特徴をどの程度正確にエミュレートするかは, 未解決の問題である。
そこで我々は,4,8,12の489項目を全国教育進歩度評価(NAEP)から収集した。
次に,11種類の多種多様かつ最先端のLLMを実生と同じ能力尺度に位置づけるために,IRTモデルを適用した。
以上の結果から,指導なしでは,強い汎用モデルの方が,各学年平均よりも常に優れており,弱いモデルやドメインミスマッチモデルも偶然に一致していることが明らかとなった。
評価されたモデルとプロンプトのペアは、対象とグレードにまたがって法案に適合せず、新しいトレーニングと評価戦略の必要性が強調されている。
本研究は,本研究の成果に基づいて,有効なプロキシの選択のためのガイドラインを提供することで結論付ける。
関連論文リスト
- Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - SMART: Simulated Students Aligned with Item Response Theory for Question Difficulty Prediction [41.25292844733891]
本稿では、シミュレーションされた学生を指導力で整列させる新しい方法SMART(Simulated Students Aligned with IRT)を提案する。
SMARTは、その改善された能力アライメントを活用することで、他の項目の難易度予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-07T15:41:38Z) - Investigating Pedagogical Teacher and Student LLM Agents: Genetic Adaptation Meets Retrieval Augmented Generation Across Learning Style [16.985943868964394]
効果的な教育には、学生の多様な認知的・行動的プロファイルに対応するために教育戦略を適用する必要がある。
本稿では,異種学生エージェントを自己最適化型教師エージェントと統合する新しいシミュレーションフレームワークを提案する。
本研究は,データ駆動環境下での人間教育者を訓練するためのテストベッドの提供を目的として,LLMによるシミュレーションの可能性を強調した。
論文 参考訳(メタデータ) (2025-05-25T14:45:35Z) - Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。
真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。
我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文 参考訳(メタデータ) (2024-10-16T06:51:09Z) - Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy [0.0]
本稿では,Rori による 53,000 個の質問応答対の新たなデータセットである AMMORE を紹介する。
2つの実験により,大規模言語モデル(LLM)を用いて,難解な学生の回答を段階的に評価する。
論文 参考訳(メタデータ) (2024-09-26T14:51:40Z) - Evaluating the Impact of Advanced LLM Techniques on AI-Lecture Tutors for a Robotics Course [0.35132421583441026]
本研究では,大規模言語モデル(LLM)を人工知能を用いた大学授業用チューターとして評価する。
特に、プロンプトエンジニアリング、Retrieval-Augmented-Generation (RAG)、ファインチューニングなど、様々な高度な技術が利用されている。
以上の結果から,RAGと迅速なエンジニアリングを組み合わせることで,モデル応答が大幅に向上し,より優れた事実解が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-02T19:49:19Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。