Fugu-MT 論文翻訳(概要): FoundationalASSIST: An Educational Dataset for Foundational Knowledge Tracing and Pedagogical Grounding of LLMs

論文の概要: FoundationalASSIST: An Educational Dataset for Foundational Knowledge Tracing and Pedagogical Grounding of LLMs

arxiv url: http://arxiv.org/abs/2602.00070v1
Date: Tue, 20 Jan 2026 17:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.316807
Title: FoundationalASSIST: An Educational Dataset for Foundational Knowledge Tracing and Pedagogical Grounding of LLMs
Title（参考訳）: FoundationalASSIST: LLMの基礎的知識追跡と教育的基盤のための教育データセット
Authors: Eamon Worden, Cristina Heffernan, Neil Heffernan, Shashank Sonkar,
Abstract要約: FoundationalASSISTは、大規模言語モデルの研究に必要な完全な情報を提供する最初の英語教育データセットである。 5000人の学生による170万のインタラクションは、これまで追求できなかった研究の方向性を可能にしている。
参考スコア（独自算出の注目度）: 0.8399688944263842
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Can Large Language Models understand how students learn? As LLMs are deployed for adaptive testing and personalized tutoring, this question becomes urgent -- yet we cannot answer it with existing resources. Current educational datasets provide only question identifiers and binary correctness labels, rendering them opaque to LLMs that reason in natural language. We address this gap with FoundationalASSIST, the first English educational dataset providing the complete information needed for research on LLMs in education: full question text, actual student responses (not just right/wrong), records of which wrong answers students chose, and alignment to Common Core K-12 standards. These 1.7 million interactions from 5,000 students enable research directions that were previously impossible to pursue, from fine-tuning student models to analyzing misconception patterns. To demonstrate the dataset's utility, we evaluate four frontier models (GPT-OSS-120B, Llama-3.3-70B, Qwen3-Next-80B variants) on two complementary task families: Knowledge Tracing, testing whether LLMs can predict student performance on questions, and the exact answer a student will give; and \textbf{Pedagogical Grounding}, testing whether LLMs understand the properties that make assessment items effective. Our evaluation reveals significant gaps in current LLM capabilities. Every model barely achieves a trivial baseline on knowledge tracing. All models fall below random chance on item discrimination, indicating that LLMs do not understand what makes one problem more diagnostic than another. Models do show competence at judging relative difficulty (up to 68.6%), but this partial success only highlights the gaps elsewhere. These results establish that substantial advances are needed before LLMs can reliably support personalized learning at scale. We release FoundationalASSIST to support progress on these foundational challenges.
Abstract（参考訳）: 大規模言語モデルは学生の学習方法を理解することができるか? LLMは適応的なテストとパーソナライズされた学習のためにデプロイされるので、この質問は緊急になる。現在の教育データセットは、疑問識別子とバイナリの正当性ラベルのみを提供しており、自然言語の理由となるLLMには不透明である。教育におけるLLMの研究に必要な完全な情報を提供する最初の英語教育データセットであるFoundationalASSISTとのギャップに対処する。 5000人の学生による170万のインタラクションは、微調整された学生モデルから誤解パターンの分析まで、これまで追求できなかった研究の方向性を可能にする。このデータセットの有用性を示すために,2つの補完的タスクファミリ上で,4つのフロンティアモデル(GPT-OSS-120B,Llama-3.3-70B,Qwen3-Next-80B)を評価する。評価の結果,現在のLLM能力には大きなギャップがあることが判明した。どのモデルも知識追跡の自明なベースラインをほとんど達成しません。すべてのモデルがアイテムの識別においてランダムな確率を下回り、LCMが1つの問題を他のモデルよりも診断する理由を理解していないことを示している。モデルは相対的な困難(最大68.6%)を判断する能力を示すが、この部分的な成功は、他の部分とのギャップを浮き彫りにするだけである。これらの結果は、LLMが大規模にパーソナライズされた学習を確実にサポートするためには、かなりの進歩が必要であることを証明している。基礎的課題の進展を支援するため,FoundationalASSISTをリリースする。

関連論文リスト

When Do LLMs Help With Node Classification? A Comprehensive Analysis [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。 10のホモ親和性データセット、4つのヘテロ親和性データセット、8つのLLMアルゴリズム、8つの古典的ベースライン、3つの学習パラダイムを含む。その結果,(1) LLMに基づく手法は, 半教師付き環境では従来手法よりも優れているが, 教師付き環境では優位性が低い, という8つの知見が得られた。
論文参考訳（メタデータ） (2025-02-02T15:56:05Z)
LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文参考訳（メタデータ） (2024-10-28T20:42:46Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。 1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文参考訳（メタデータ） (2024-02-16T06:29:16Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。 17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文参考訳（メタデータ） (2023-11-16T09:50:53Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか? LLMの事実知識を評価する統計的手法であるKaRRを提案する。この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文参考訳（メタデータ） (2023-05-17T18:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。