論文の概要: Elmes*: Automated Construction of Fine-Grained Evaluation Rubrics for Large Language Models in Long-Tail Educational Scenarios
- arxiv url: http://arxiv.org/abs/2606.06546v1
- Date: Thu, 04 Jun 2026 07:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.362488
- Title: Elmes*: Automated Construction of Fine-Grained Evaluation Rubrics for Large Language Models in Long-Tail Educational Scenarios
- Title(参考訳): Elmes*:長期教育シナリオにおける大規模言語モデルのための細粒度評価ルーブリックの自動構築
- Authors: Tao Liu, Ye Lu, Ruohua Zhang, Siyu Song, Wentao Liu, Aimin Zhou, Hao Hao,
- Abstract要約: Elmes*は、詳細なシナリオ固有のルーリックの構築、精錬、適用のためのエンドツーエンドフレームワークである。
Edu-330は、11の被験者に330のシナリオ、3つのグレードバンド、10のタスクタイプがあり、1000以上の第2レベルの指標がある。
- 参考スコア(独自算出の注目度): 22.62023107953559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) for education requires measuring how models teach, not only what they know. Existing benchmarks emphasize domain-general correctness or depend on manually designed rubrics that scale poorly to long-tail pedagogical scenarios. We introduce Elmes*, an end-to-end framework for constructing, refining, and applying fine-grained scenario-specific rubrics. Elmes* combines a declarative multi-agent engine for teacher--student--judge interactions with SceneGen, a self-evolving module that co-optimizes evaluation criteria and test data from expert-defined pedagogical dimensions. Using Elmes*, we build Edu-330, covering 330 scenarios across 11 subjects, 3 grade bands, and 10 task types, with over 1{,}000 second-level indicators. Experiments on Edu-330 and four expert-authored gold-standard scenarios show that educational capability is multidimensional: top-tier LLMs differ mainly in creativity and values integration, knowledge-strong models may fail at Socratic scaffolding, and the education-specialized InnoSpark achieves the best human-evaluated average score. LLM judges preserve human-comparable rankings with much lower scoring variance, but exhibit judge-specific biases such as self-preference. Ablations show that expert-scored few-shot anchoring improves human--LLM alignment, while reasoning enforcement and greedy decoding are model-dependent. Elmes* thus provides scalable diagnostic infrastructure for pedagogically grounded LLM evaluation.
- Abstract(参考訳): 教育のための大きな言語モデル(LLM)を評価するには、モデルがどのように教えるかを測定する必要がある。
既存のベンチマークでは、ドメイン全般の正当性を強調したり、長い尾の教育シナリオに乏しい手動設計のルーリックに依存している。
Elmes*は、細かなシナリオ固有のルーブリックの構築、精錬、適用のためのエンドツーエンドフレームワークです。
Elmes*は、教師と学生の対話のための宣言型マルチエージェントエンジンをSceneGenと組み合わせている。
Elmes*を使ってEdu-330を構築し、11の被験者、3つのグレードバンド、10のタスクタイプに1{,}000のセカンドレベルインジケータを含む330のシナリオをカバーしています。
Edu-330と4つの専門家によるゴールドスタンダードシナリオの実験では、教育能力は多次元であることが示されている。
LLMの審査員は、スコアのばらつきがはるかに低い人間の比較可能なランキングを保っているが、自己選好のような裁判官固有の偏見を示す。
専門家による数発のアンカーは、人間-LLMアライメントを改善する一方、推論の強制と欲求のデコーディングはモデル依存である。
Elmes*は拡張性のある診断インフラを提供し、段階的にLLM評価を行う。
関連論文リスト
- ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。
IFEvalは、単純で簡単に再現できる評価ベンチマークである。
市場における2つのLLMの評価結果を示す。
論文 参考訳(メタデータ) (2023-11-14T05:13:55Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。