論文の概要: ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios
- arxiv url: http://arxiv.org/abs/2507.22947v1
- Date: Sun, 27 Jul 2025 15:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.324084
- Title: ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios
- Title(参考訳): ELMES: 教育シナリオにおける大規模言語モデル評価のためのフレームワーク
- Authors: Shou'ang Wei, Xinyun Wang, Shuzhen Bi, Jian Chen, Ruijia Li, Bo Jiang, Xin Lin, Min Zhang, Yu Song, BingDong Li, Aimin Zhou, Hao Hao,
- Abstract要約: 大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
- 参考スコア(独自算出の注目度): 23.549720214649476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Large Language Models (LLMs) presents transformative opportunities for education, generating numerous novel application scenarios. However, significant challenges remain: evaluation metrics vary substantially across different educational scenarios, while many emerging scenarios lack appropriate assessment metrics. Current benchmarks predominantly measure general intelligence rather than pedagogical capabilities. To address this gap, we introduce ELMES, an open-source automated evaluation framework specifically designed for assessing LLMs in educational settings. ELMES features a modular architecture that enables researchers to create dynamic, multi-agent dialogues through simple configuration files, facilitating flexible scenario design without requiring extensive programming expertise. The framework incorporates a hybrid evaluation engine that objectively quantifies traditionally subjective pedagogical metrics using an LLM-as-a-Judge methodology. We conduct systematic benchmarking of state-of-the-art LLMs across four critical educational scenarios: Knowledge Point Explanation, Guided Problem-Solving Teaching, Interdisciplinary Lesson Plan Generation, and Contextualized Question Generation, employing fine-grained metrics developed in collaboration with education specialists. Our results demonstrate distinct capability distributions among models, revealing context-specific strengths and limitations. ELMES provides educators and researchers with an accessible evaluation framework that significantly reduces adaptation barriers for diverse educational applications while advancing the practical implementation of LLMs in pedagogy. The framework is publicly available at \emph{https://github.com/sii-research/elmes.git}.
- Abstract(参考訳): LLM(Large Language Models)の出現は、教育の変革的な機会を示し、多くの新しいアプリケーションシナリオを生み出します。
しかし、重要な課題は残る: 評価指標は異なる教育シナリオで大きく異なるが、多くの新興シナリオは適切な評価指標を欠いている。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
このギャップに対処するため,教育環境におけるLLMの評価に特化して設計されたオープンソースの自動評価フレームワークであるEMMESを紹介した。
ELMESはモジュールアーキテクチャを備えており、研究者は単純な構成ファイルを通じて動的でマルチエージェントな対話を作成できる。
このフレームワークには、LLM-as-a-Judge手法を用いて、従来の主観的教育指標を客観的に定量化するハイブリッド評価エンジンが組み込まれている。
我々は,4つの重要な教育シナリオ – 知識ポイント説明,指導的問題解決指導,学際的な授業計画生成,コンテキスト化された質問生成 – にまたがって,最先端のLCMを体系的にベンチマークする。
本研究は, モデル間で異なる能力分布を示し, 文脈固有の強みと限界を明らかにした。
ELMESは教育者や研究者に、教育応用の適応障壁を大幅に減らし、教育におけるLLMの実践的実装を進めるための、アクセス可能な評価フレームワークを提供する。
フレームワークは、emph{https://github.com/sii-research/elmes.git}で公開されている。
関連論文リスト
- Simulating Students with Large Language Models: A Review of Architecture, Mechanisms, and Role Modelling in Education with Generative AI [0.8703455323398351]
大規模言語モデル(LLM)を用いた教育環境における学生の行動のシミュレートに関する研究のレビュー
LLMをベースとしたエージェントが学習者の古型をエミュレートし、指導的な入力に反応し、マルチエージェントの教室シナリオ内で相互作用する能力に関する現在の証拠を示す。
本稿では,カリキュラム開発,教育評価,教員養成におけるシステムの役割について検討する。
論文 参考訳(メタデータ) (2025-11-08T17:23:13Z) - Designing Empirical Studies on LLM-Based Code Generation: Towards a Reference Framework [0.3568466510804538]
大規模言語モデル(LLM)に基づくコード生成に関する経験的研究を設計・報告するための理論的枠組みを提案する。
このフレームワークは、そのような実験を行ったこれまでの経験と、最近の研究における重要な類似点と相違点の比較分析の両方に基礎を置いている。
問題ソース、品質属性、メトリクスなどのコアコンポーネントに関する評価を組織化し、構造化および体系的な実験をサポートする。
論文 参考訳(メタデータ) (2025-10-04T16:15:54Z) - Generative Large Language Models for Knowledge Representation: A Systematic Review of Concept Map Generation [1.163826615891678]
生成型大規模言語モデル(LLM)の台頭により,概念地図による知識表現を自動化する新たな機会が開かれた。
本総説では, LLM を用いた概念マップ生成に関する新たな研究の体系化について述べる。
人間のループシステム、弱い教師付き学習モデル、微調整されたドメイン固有LLM、素早いエンジニアリングによる事前訓練されたLLM、知識ベースを統合するハイブリッドシステム、シンボルと統計ツールを組み合わせたモジュラーフレームワークである。
論文 参考訳(メタデータ) (2025-09-18T02:36:54Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - MLLM-CL: Continual Learning for Multimodal Large Language Models [62.90736445575181]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。
我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-05T17:58:13Z) - Towards Robust Evaluation of STEM Education: Leveraging MLLMs in Project-Based Learning [19.4760649326684]
プロジェクトベースラーニング(PBL)は、様々な高度に相関したマルチモーダルデータを含んでおり、STEM分野において重要な教育的アプローチとなっている。
MLLM(Multimodal large language model)の急速な発展に伴い、研究者は情報検索、知識理解、データ生成といったタスクを強化する可能性を探り始めた。
既存のベンチマークは、自由形式の出力構造と厳格な人間の専門家による検証プロセスの両方を提供することで不足しており、実際の教育タスクを評価する上での有効性を制限している。
論文 参考訳(メタデータ) (2025-05-16T11:01:01Z) - Enhanced Bloom's Educational Taxonomy for Fostering Information Literacy in the Era of Large Language Models [16.31527042425208]
本稿では,大規模言語モデル(LLM)を用いた学生の情報リテラシー(IL)の認識と評価を目的としたLLMによるブルーム教育分類法を提案する。
このフレームワークは、LLMを使用するために必要な認知能力に対応するILを、Exploration & ActionとCreation & Metacognitionの2つの異なるステージに分類する。
論文 参考訳(メタデータ) (2025-03-25T08:23:49Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。
本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。
MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文 参考訳(メタデータ) (2024-02-14T14:53:56Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。