Fugu-MT 論文翻訳(概要): ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios

論文の概要: ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios

arxiv url: http://arxiv.org/abs/2507.22947v1
Date: Sun, 27 Jul 2025 15:20:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:08.324084
Title: ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios
Title（参考訳）: ELMES: 教育シナリオにおける大規模言語モデル評価のためのフレームワーク
Authors: Shou'ang Wei, Xinyun Wang, Shuzhen Bi, Jian Chen, Ruijia Li, Bo Jiang, Xin Lin, Min Zhang, Yu Song, BingDong Li, Aimin Zhou, Hao Hao,
Abstract要約: 大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。現在のベンチマークは、教育能力よりも一般知能を主に測定している。本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
参考スコア（独自算出の注目度）: 23.549720214649476
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emergence of Large Language Models (LLMs) presents transformative opportunities for education, generating numerous novel application scenarios. However, significant challenges remain: evaluation metrics vary substantially across different educational scenarios, while many emerging scenarios lack appropriate assessment metrics. Current benchmarks predominantly measure general intelligence rather than pedagogical capabilities. To address this gap, we introduce ELMES, an open-source automated evaluation framework specifically designed for assessing LLMs in educational settings. ELMES features a modular architecture that enables researchers to create dynamic, multi-agent dialogues through simple configuration files, facilitating flexible scenario design without requiring extensive programming expertise. The framework incorporates a hybrid evaluation engine that objectively quantifies traditionally subjective pedagogical metrics using an LLM-as-a-Judge methodology. We conduct systematic benchmarking of state-of-the-art LLMs across four critical educational scenarios: Knowledge Point Explanation, Guided Problem-Solving Teaching, Interdisciplinary Lesson Plan Generation, and Contextualized Question Generation, employing fine-grained metrics developed in collaboration with education specialists. Our results demonstrate distinct capability distributions among models, revealing context-specific strengths and limitations. ELMES provides educators and researchers with an accessible evaluation framework that significantly reduces adaptation barriers for diverse educational applications while advancing the practical implementation of LLMs in pedagogy. The framework is publicly available at \emph{https://github.com/sii-research/elmes.git}.
Abstract（参考訳）: LLM(Large Language Models)の出現は、教育の変革的な機会を示し、多くの新しいアプリケーションシナリオを生み出します。しかし、重要な課題は残る: 評価指標は異なる教育シナリオで大きく異なるが、多くの新興シナリオは適切な評価指標を欠いている。現在のベンチマークは、教育能力よりも一般知能を主に測定している。このギャップに対処するため,教育環境におけるLLMの評価に特化して設計されたオープンソースの自動評価フレームワークであるEMMESを紹介した。 ELMESはモジュールアーキテクチャを備えており、研究者は単純な構成ファイルを通じて動的でマルチエージェントな対話を作成できる。このフレームワークには、LLM-as-a-Judge手法を用いて、従来の主観的教育指標を客観的に定量化するハイブリッド評価エンジンが組み込まれている。我々は,4つの重要な教育シナリオ – 知識ポイント説明,指導的問題解決指導,学際的な授業計画生成,コンテキスト化された質問生成 – にまたがって,最先端のLCMを体系的にベンチマークする。本研究は, モデル間で異なる能力分布を示し, 文脈固有の強みと限界を明らかにした。 ELMESは教育者や研究者に、教育応用の適応障壁を大幅に減らし、教育におけるLLMの実践的実装を進めるための、アクセス可能な評価フレームワークを提供する。フレームワークは、emph{https://github.com/sii-research/elmes.git}で公開されている。

関連論文リスト

OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
MLLM-CL: Continual Learning for Multimodal Large Language Models [62.90736445575181]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-06-05T17:58:13Z)
Towards Robust Evaluation of STEM Education: Leveraging MLLMs in Project-Based Learning [19.4760649326684]
プロジェクトベースラーニング(PBL)は、様々な高度に相関したマルチモーダルデータを含んでおり、STEM分野において重要な教育的アプローチとなっている。 MLLM(Multimodal large language model)の急速な発展に伴い、研究者は情報検索、知識理解、データ生成といったタスクを強化する可能性を探り始めた。既存のベンチマークは、自由形式の出力構造と厳格な人間の専門家による検証プロセスの両方を提供することで不足しており、実際の教育タスクを評価する上での有効性を制限している。
論文参考訳（メタデータ） (2025-05-16T11:01:01Z)
Enhanced Bloom's Educational Taxonomy for Fostering Information Literacy in the Era of Large Language Models [16.31527042425208]
本稿では,大規模言語モデル(LLM)を用いた学生の情報リテラシー(IL)の認識と評価を目的としたLLMによるブルーム教育分類法を提案する。このフレームワークは、LLMを使用するために必要な認知能力に対応するILを、Exploration & ActionとCreation & Metacognitionの2つの異なるステージに分類する。
論文参考訳（メタデータ） (2025-03-25T08:23:49Z)
A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-29T19:32:43Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。 MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文参考訳（メタデータ） (2024-02-14T14:53:56Z)
Solution-oriented Agent-based Models Generation with Verifier-assisted Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。 SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文参考訳（メタデータ） (2024-02-04T07:59:06Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。