論文の概要: OpenLearnLM Benchmark: A Unified Framework for Evaluating Knowledge, Skill, and Attitude in Educational Large Language Models
- arxiv url: http://arxiv.org/abs/2601.13882v1
- Date: Tue, 20 Jan 2026 11:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.295096
- Title: OpenLearnLM Benchmark: A Unified Framework for Evaluating Knowledge, Skill, and Attitude in Educational Large Language Models
- Title(参考訳): OpenLearnLMベンチマーク:教育用大規模言語モデルにおける知識、スキル、態度を評価する統一フレームワーク
- Authors: Unggi Lee, Sookbun Lee, Heungsoo Choi, Jinseo Lee, Haeun Park, Younghoon Jeon, Sungmin Cho, Minju Kang, Junbo Koh, Jiyeong Bae, Minwoo Nam, Juyeon Eun, Yeonji Jung, Yeil Jeong,
- Abstract要約: OpenLearnLM Benchmarkは、大規模な言語モデルを評価するフレームワークである。
本ベンチマークは、複数の科目、教育的役割、難易度にまたがる124K以上の項目からなる。
- 参考スコア(独自算出の注目度): 1.1375020040227939
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models are increasingly deployed as educational tools, yet existing benchmarks focus on narrow skills and lack grounding in learning sciences. We introduce OpenLearnLM Benchmark, a theory-grounded framework evaluating LLMs across three dimensions derived from educational assessment theory: Knowledge (curriculum-aligned content and pedagogical understanding), Skills (scenario-based competencies organized through a four-level center-role-scenario-subscenario hierarchy), and Attitude (alignment consistency and deception resistance). Our benchmark comprises 124K+ items spanning multiple subjects, educational roles, and difficulty levels based on Bloom's taxonomy. The Knowledge domain prioritizes authentic assessment items from established benchmarks, while the Attitude domain adapts Anthropic's Alignment Faking methodology to detect behavioral inconsistency under varying monitoring conditions. Evaluation of seven frontier models reveals distinct capability profiles: Claude-Opus-4.5 excels in practical skills despite lower content knowledge, while Grok-4.1-fast leads in knowledge but shows alignment concerns. Notably, no single model dominates all dimensions, validating the necessity of multi-axis evaluation. OpenLearnLM provides an open, comprehensive framework for advancing LLM readiness in authentic educational contexts.
- Abstract(参考訳): 大規模言語モデルは、教育ツールとしてますます多くデプロイされているが、既存のベンチマークは、狭義のスキルと学習科学の基盤の欠如に焦点を当てている。
OpenLearnLM Benchmarkは,教育評価理論から派生した3次元のLSMを評価する理論的基盤を持つフレームワークである。知識(カリキュラム的コンテンツと教育的理解),スキル(4段階のセンター・ロール・セサリオ・サブセサリオ階層によって編成されたシナリオベースの能力),態度(調整整合性と詐欺抵抗)である。
本ベンチマークは,ブルームの分類に基づく複数の科目,教育的役割,難易度にまたがる124K以上の項目からなる。
知識ドメインは、確立されたベンチマークから真の評価項目を優先し、態度ドメインは、さまざまな監視条件下での行動の不整合を検出するために、Arthropicのアライメントフェイキング手法を適用する。
Claude-Opus-4.5はコンテンツ知識が低いにもかかわらず実践的なスキルに優れており、Grok-4.1-fastは知識をリードするが、アライメントの懸念を示している。
特に、一つのモデルがすべての次元を支配しておらず、多軸評価の必要性を検証する。
OpenLearnLMは、真の教育コンテキストにおけるLLMの準備性を促進するための、オープンで包括的なフレームワークを提供する。
関連論文リスト
- MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [82.0813150432867]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、13のアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - KScope: A Framework for Characterizing the Knowledge Status of Language Models [25.355263922501475]
LLM知識モードの整合性と正当性に基づく5つの知識状態の分類法を導入する。
次に、知識モードに関する仮説を段階的に洗練する統計テストの階層的なフレームワークであるKScopeを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:06:05Z) - LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning [58.98865450345401]
本稿では,マイアーのマルチメディア学習認知理論に基礎を置く自動計量であるLecEvalを紹介する。
LecEvalは、コンテンツ関連(CR)、表現的明瞭度(EC)、論理構造(LS)、聴取エンゲージメント(AE)の4つのルーリックを用いて効果を評価する
私たちは、50以上のオンラインコースビデオから2000以上のスライドからなる大規模なデータセットをキュレートします。
論文 参考訳(メタデータ) (2025-05-04T12:06:47Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。