論文の概要: EduAdapt: A Question Answer Benchmark Dataset for Evaluating Grade-Level Adaptability in LLMs
- arxiv url: http://arxiv.org/abs/2510.17389v1
- Date: Mon, 20 Oct 2025 10:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.408794
- Title: EduAdapt: A Question Answer Benchmark Dataset for Evaluating Grade-Level Adaptability in LLMs
- Title(参考訳): EduAdapt: LLMのグレードレベル適応性を評価するためのベンチマークデータセット
- Authors: Numaan Naeem, Abdellah El Mekki, Muhammad Abdul-Mageed,
- Abstract要約: 大規模言語モデル(LLM)は、質問に答え、複雑な概念を説明し、幅広い主題にまたがるコンテンツを生成することによって、教育を変革している。
学術ベンチマークのパフォーマンスは高いが、学生の成績に反応しないことが多い。
これは、年齢に適した語彙と説明が効果的な学習に不可欠であるK-12教育において重要なニーズである。
エドゥアダプ(EduAdapt)は、9つの科学科目を対象に、48k近いグレードラベル付きQAペアのベンチマークであり、グレード1-12にまたがって4つのグレードにグループ化されている。
- 参考スコア(独自算出の注目度): 29.719441118059645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are transforming education by answering questions, explaining complex concepts, and generating content across a wide range of subjects. Despite strong performance on academic benchmarks, they often fail to tailor responses to students' grade levels. This is a critical need in K-12 education, where age-appropriate vocabulary and explanation are essential for effective learning. Existing models frequently produce outputs that are too advanced or vague for younger learners, and there are no standardized benchmarks to evaluate their ability to adjust across cognitive and developmental stages. To address this gap, we introduce EduAdapt, a benchmark of nearly 48k grade-labeled QA pairs across nine science subjects, spanning Grades 1-12 and grouped into four grade levels. We evaluate a diverse set of open-source LLMs on EduAdapt and find that while larger models generally perform better, they still struggle with generating suitable responses for early-grade students (Grades 1-5). Our work presents the first dataset and evaluation framework for assessing grade-level adaptability in LLMs, aiming to foster more developmentally aligned educational AI systems through better training and prompting strategies. EduAdapt code and datasets are publicly available at https://github.com/NaumanNaeem/EduAdapt.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問に答え、複雑な概念を説明し、幅広い主題にまたがるコンテンツを生成することによって、教育を変革している。
学術ベンチマークのパフォーマンスは高いが、学生の成績に反応しないことが多い。
これは、年齢に適した語彙と説明が効果的な学習に不可欠であるK-12教育において重要なニーズである。
既存のモデルは、若い学習者にとって進歩的あるいは曖昧なアウトプットをしばしば生成し、認知段階と発達段階をまたいで調整する能力を評価するための標準ベンチマークは存在しない。
このギャップに対処するために、EduAdaptという、9つの科学科目にわたる48k近いグレードラベル付きQAペアのベンチマークを導入し、グレード1-12にまたがって4つのグレードに分類した。
我々は,EduAdapt 上でのオープンソース LLM の多種多様なセットを評価し,大規模モデルは概して優れた性能を発揮するが,それでも早期の学生に適切な応答を生成するのに苦慮している (Grades 1-5)。
我々の研究は、LLMのグレードレベルの適応性を評価するための最初のデータセットと評価フレームワークを提示し、より良いトレーニングと戦略の推進を通じて、より発達的に整合した教育AIシステムを促進することを目的としている。
EduAdaptのコードとデータセットはhttps://github.com/NaumanNaeem/EduAdaptで公開されている。
関連論文リスト
- Automatic Question & Answer Generation Using Generative Large Language Model (LLM) [0.0]
本研究では,NLPにおける教師なし学習手法の活用を提案する。
カスタマイズされたモデルは、教育者、インストラクター、テキストベースの評価に従事する個人に対して効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-26T23:36:13Z) - Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension? [8.558834738072363]
大規模言語モデル (LLMs) は、知能学習システム (ITSs) の開発において、代用学生としての利用が増えている。
我々は,4,8,12の数学と読解に関する全国教育進歩評価(NAEP)から,489項目のデータセットを収集した。
本研究では,11種類の多種多様かつ最先端のLLMを実生と同じ能力尺度に位置づけるために,IRTモデルを適用した。
論文 参考訳(メタデータ) (2025-07-11T00:36:57Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education [0.0]
本稿では, 大規模言語モデルを用いて, 短時間の回答に対するオープンテキスト応答の精度を評価できるような, 新たなデータセットによる一連の実験について報告する。
GPT-4は, 基本的数発のプロンプト(Kappa, 0.70)が良好に動作し, 人体レベルのパフォーマンス(0.75)に非常に近いことが判明した。
この研究は、GPT-4が、専門家のラッカーと非常に近いパフォーマンスレベルで、短い回答読解質問を確実にスコアできるという以前の知見に基づいている。
論文 参考訳(メタデータ) (2024-05-05T16:11:06Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE [203.65227947509933]
このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
論文 参考訳(メタデータ) (2022-12-04T15:36:18Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Question Generation for Adaptive Education [7.23389716633927]
深層知識追跡(LM-KT)のための事前学習言語モデルを微調整する方法を示す。
このモデルは、学生が正しい質問に答える確率を正確に予測し、訓練中に見えない質問に一般化する。
次に、LM-KTを用いて、モデルの訓練対象とデータを特定し、学生に条件付き質問を生成し、難易度を目標とする。
論文 参考訳(メタデータ) (2021-06-08T11:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。