論文の概要: EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios
- arxiv url: http://arxiv.org/abs/2505.16160v1
- Date: Thu, 22 May 2025 03:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.999157
- Title: EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios
- Title(参考訳): EduBench: 多様な教育シナリオにおける大規模言語モデル評価のための総合ベンチマークデータセット
- Authors: Bin Xu, Yu Bai, Huashan Sun, Yiguan Lin, Siming Liu, Xinyue Liang, Yaolin Li, Yang Gao, Heyan Huang,
- Abstract要約: 教育シナリオに適した最初の多様なベンチマークを紹介します。
本稿では,教師と学生の両方に関係のある12つの重要な側面をカバーする多次元評価指標を提案する。
構築したデータセット上で比較的小規模なモデルをトレーニングし、最先端の大規模モデルに匹敵するパフォーマンスを実現することを実証する。
- 参考スコア(独自算出の注目度): 41.370448581863194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models continue to advance, their application in educational contexts remains underexplored and under-optimized. In this paper, we address this gap by introducing the first diverse benchmark tailored for educational scenarios, incorporating synthetic data containing 9 major scenarios and over 4,000 distinct educational contexts. To enable comprehensive assessment, we propose a set of multi-dimensional evaluation metrics that cover 12 critical aspects relevant to both teachers and students. We further apply human annotation to ensure the effectiveness of the model-generated evaluation responses. Additionally, we succeed to train a relatively small-scale model on our constructed dataset and demonstrate that it can achieve performance comparable to state-of-the-art large models (e.g., Deepseek V3, Qwen Max) on the test set. Overall, this work provides a practical foundation for the development and evaluation of education-oriented language models. Code and data are released at https://github.com/ybai-nlp/EduBench.
- Abstract(参考訳): 大規模な言語モデルが進歩を続けるにつれ、教育的文脈におけるそれらの応用はいまだ探索が過小評価され、最適化されていない。
本稿では,9つの主要なシナリオと4,000以上の異なる教育状況を含む合成データを組み込んだ,教育シナリオに適した最初の多様なベンチマークを導入することで,このギャップに対処する。
総合的な評価を可能にするために,教師と学生の両方にとって重要な12の側面をカバーする多次元評価指標を提案する。
さらに、モデル生成評価応答の有効性を確保するために、人間のアノテーションを適用した。
さらに、構築したデータセット上で比較的小規模なモデルをトレーニングすることに成功し、テストセット上の最先端の大規模モデル(Deepseek V3、Qwen Maxなど)に匹敵するパフォーマンスを実現できることを実証しました。
全体として、本研究は教育指向言語モデルの開発と評価のための実践的な基盤を提供する。
コードとデータはhttps://github.com/ybai-nlp/EduBench.comで公開されている。
関連論文リスト
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文 参考訳(メタデータ) (2023-04-16T18:37:39Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。