論文の概要: K12Vista: Exploring the Boundaries of MLLMs in K-12 Education
- arxiv url: http://arxiv.org/abs/2506.01676v1
- Date: Mon, 02 Jun 2025 13:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.412665
- Title: K12Vista: Exploring the Boundaries of MLLMs in K-12 Education
- Title(参考訳): K12Vista:K-12教育におけるMLLMの境界を探る
- Authors: Chong Li, Chenglin Zhu, Tao Zhang, Mingan Lin, Zenan Zhou, Jian Xie,
- Abstract要約: 提案するK12Vistaは,中国語の教科知識理解と推論のための,最も包括的なマルチモーダルベンチマークである。
K12Vistaは、小学校から高校までの5つの中核教科に33,000の質問と3つの質問タイプがある。
また、推論プロセスと解答正当性の両方を総合的に評価する高度なプロセス評価モデルであるK12-PEMを開発した。
- 参考スコア(独自算出の注目度): 10.26163930911606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models have demonstrated remarkable reasoning capabilities in various visual tasks. However, their abilities in K12 scenarios are still systematically underexplored. Previous studies suffer from various limitations including narrow subject coverage, insufficient data scale, lack of diversity in question types, and naive answer-centric evaluation method, resulting in insufficient exploration of model capabilities. To address these gaps, we propose K12Vista, the most comprehensive multimodal benchmark for Chinese K12 subject knowledge understanding and reasoning to date, featuring 33,000 questions across five core subjects from primary to high school and three question types. Moreover, beyond the final outcome, we are also concerned with the correctness of MLLMs' reasoning processes. For this purpose, we meticulously compiles errors from MLLMs' reasoning processes and leverage an automated data pipeline to construct K12-PEM-800K, the largest process evaluation dataset offering detailed step-by-step judgement annotations for MLLMs' reasoning. Subsequently, we developed K12-PEM, an advanced process evaluation model that integrates an overall assessment of both the reasoning process and answer correctness. Moreover, we also introduce K12-PEBench, the first high-quality, human-annotated benchmark specifically designed for evaluating abilities of reasoning process evaluation.Extensive experiments reveal that current MLLMs exhibit significant flaws when reasoning within K12Vista, providing critical insights for the development of more capable MLLMs.We open our resources at https://github.com/lichongod/K12Vista.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、様々な視覚的タスクにおいて顕著な推論能力を示している。
しかしながら、K12シナリオにおけるそれらの能力はまだ体系的に過小評価されている。
従来の研究は、対象範囲の狭さ、データスケールの不足、質問型の多様性の欠如、単純回答中心評価法など、様々な制限に悩まされ、結果としてモデル能力の探究が不十分な結果となった。
これらのギャップに対処するため,中国K12教科の知識理解と推論のための最も包括的なマルチモーダル・ベンチマークであるK12Vistaを提案する。
さらに,最終結果を超えて,MLLMの推論プロセスの正確性も懸念している。
この目的のために,MLLMの推論プロセスからエラーを慎重にコンパイルし,自動データパイプラインを利用して,MLLMの推論のためのステップバイステップ判定アノテーションを提供する,最大のプロセス評価データセットであるK12-PEM-800Kを構築する。
そこで我々は,推論過程と解答正当性の両方を総合的に評価する高度なプロセス評価モデルであるK12-PEMを開発した。
さらに、K12-PEBenchは、推論プロセス評価の能力を評価するために設計された最初の高品質な人為的注釈付きベンチマークで、K12Vista内での推論において、現在のMLLMが重大な欠陥を示し、より有能なMLLMの開発に重要な洞察を与えていることを示す実験を、https://github.com/lichongod/K12Vistaで公開しています。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models [40.87249469370042]
視覚言語モデル(VLRM)は、推論プロセスにおいてますます重要になっている。
既存の視覚言語RM(VLRM)のベンチマークは、通常、その能力の1つの側面しか評価しない。
我々は、12,634の質問を含むVLRMBenchと呼ばれる包括的で挑戦的なベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-10T15:52:57Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。