論文の概要: Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics
- arxiv url: http://arxiv.org/abs/2604.26607v1
- Date: Wed, 29 Apr 2026 12:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.395384
- Title: Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics
- Title(参考訳): 中等級数学における自動能力評価のための不均一LLMの最適ベンチマーク
- Authors: Jatin Bhusal, Nancy Mahatha, Aayush Acharya, Raunak Regmi,
- Abstract要約: 本稿では,中等レベルの数学評価において,複数の LLM の有効性を評価するための "Human-in-the-Loop" ベンチマークフレームワークを提案する。
ネパールのグレード10オプショナル数学のカリキュラムに基づいて,4つのトピックと4つの横断的能力のための多次元ルーブリックを作成した。
GeminiベースのMixture-of-Experts(Sparse MoE)モデルはFair Agreement(Kappa_w 0.38)を達成したが、より大きなOrion(70B)モデルはNo Agreement(Kappa_w = -0.0261)を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Competency-Based Education (CBE) is gaining traction around the world, the shift from marks-based assessment to qualitative competency mapping is a manual challenge for educators. This paper tackles the bottleneck issue by suggesting a "Human-in-the-Loop" benchmarking framework to assess the effectiveness of multiple LLMs in automating secondary-level mathematics assessment. Based on the Grade 10 Optional Mathematics curriculum in Nepal, we created a multi-dimensional rubric for four topics and four cross-cutting competencies: Comprehension, Knowledge, Operational Fluency, and Behavior and Correlation. The multi-provider ensemble, consisted of open-weight models -- Eagle (Llama 3.1-8B) and Orion (Llama 3.3-70B) -- and proprietary frontier models Nova (Gemini 2.5 Flash) and Lyra (Gemini 3 Pro), was benchmarked against a ground truth defined by two senior mathematics faculty members (kappa_w = 0.8652). The findings show a marked "Architecture-compatibility gap". Although the Gemini-based Mixture-of-Experts (Sparse MoE) models achieved "Fair Agreement" (kappa_w ~ 0.38), the larger Orion (70B) model exhibited "No Agreement" (kappa_w = -0.0261), suggesting that architectural compliance with instruction constraints outweighs the scale of raw parameters in rubric-constrained tasks. We conclude that while LLMs are not yet suitable for autonomous certification, they provide high-value assistive support for preliminary evidence extraction within a "Human-in-the-Loop" framework.
- Abstract(参考訳): コンピテンシー・ベース・エデュケーション(CBE)が世界中の注目を集めている中、マークベースのアセスメントから質的な能力マッピングへの移行は、教育者にとって手作業による課題である。
本稿では,2次数学評価の自動化における複数の LLM の有効性を評価するために,Human-in-the-Loop ベンチマークフレームワークを提案することにより,ボトルネック問題に対処する。
ネパールのグレード10オプショナル数学のカリキュラムに基づいて,4つのトピックと4つの横断的能力(理解,知識,操作流束,行動と相関)の多次元ルーブリックを作成した。
多目的アンサンブルはイーグル(Llama 3.1-8B)とオリオン(Llama 3.3-70B)のオープンウェイトモデルとプロプライエタリフロンティアモデルノヴァ(Gemini 2.5 Flash)とライラ(Gemini 3 Pro)で構成され、2人の上級数学教員(kappa_w = 0.8652)によって定義された基礎的な真実とベンチマークされた。
この発見は、"Architecture-compatibility gap"が顕著であることを示している。
Gemini ベースの Mixture-of-Experts (Sparse MoE) モデルは "Fair Agreement" (kappa_w ~ 0.38) を達成したが、より大きな Orion (70B) モデルは "No Agreement" (kappa_w = -0.0261) を示し、命令制約によるアーキテクチャコンプライアンスは、ルーリック制約のあるタスクにおける生パラメータのスケールよりも優れていることを示唆した。
LLMは、まだ自律的な認証には適していないが、「Human-in-the-Loop」フレームワーク内での予備的証拠抽出に高価値の支援を提供する。
関連論文リスト
- Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs [1.529342790344802]
本稿では,Unified Language (UML) クラス図のグレーディングにおけるオープンソースのLarge Language Models (LLMs) の可能性について検討する。
その結果, 基準あたりの精度は88.56%, ピアソン相関係数は0.78であり, 従来よりも大幅に向上した。
論文 参考訳(メタデータ) (2026-03-17T10:40:35Z) - RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models [10.963195858672627]
TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。
サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。
我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
論文 参考訳(メタデータ) (2025-10-03T01:41:09Z) - ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark [0.0]
大規模言語モデル(LLM)は、大学レベルの記号数学において、急速に熟練度に近づいている。
本稿では,記号操作に特化した新しい評価フレームワークであるASyMOBを紹介する。
論文 参考訳(メタデータ) (2025-05-28T23:11:14Z) - GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks [0.11458853556386796]
本稿では,大規模言語モデル(LLM)のツールコール能力を評価するためのベンチマークを確立する。
我々は,23の地理空間機能を備えた簡易なツールコールエージェントを用いて,8種類の商用LCM (Claude Sonnet 3.5, 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1, o4-mini) を評価した。
OpenAIのGPT-4.1、GPT-4o、GoogleのGemini 2.5 Pro Previewはそれほど遅れていないが、最後の2つはより効率的である。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - PATCH! {P}sychometrics-{A}ssis{T}ed Ben{CH}marking of Large Language Models against Human Populations: A Case Study of Proficiency in 8th Grade Mathematics [3.9362370389588834]
大規模(マルチモーダル)言語モデル(LLM)の既存のベンチマークの多くは、LLMの学術的習熟度の測定に重点を置いている。
LLMは、疑わしい測定品質、品質評価の欠如、不明瞭な人口基準など、いくつかの制限に悩まされている。
心理測定に基づくアプローチを採用すると、現在のベンチマークの実践に基づいて評価結果が異なることが示される。
論文 参考訳(メタデータ) (2024-04-02T09:58:57Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文 参考訳(メタデータ) (2021-12-15T08:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。