Fugu-MT 論文翻訳(概要): VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

論文の概要: VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

arxiv url: http://arxiv.org/abs/2409.13730v1
Date: Tue, 10 Sep 2024 01:20:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 05:35:28.608643
Title: VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
Title（参考訳）: VisScience:K12教育マルチモーダル科学推論評価のための総合ベンチマーク
Authors: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Yuxiao Dong, Jie Tang,
Abstract要約: MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
参考スコア（独自算出の注目度）: 32.811840681428464
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal large language models (MLLMs) have demonstrated promising capabilities across various tasks by integrating textual and visual information to achieve visual understanding in complex scenarios. Despite the availability of several benchmarks aims to evaluating MLLMs in tasks from visual question answering to complex problem-solving, most focus predominantly on mathematics or general visual understanding tasks. This reveals a critical gap in current benchmarks, which often overlook the inclusion of other key scientific disciplines such as physics and chemistry. To address this gap, we meticulously construct a comprehensive benchmark, named VisScience, which is utilized to assess the multi-modal scientific reasoning across the three disciplines of mathematics, physics, and chemistry. This benchmark comprises 3,000 questions drawn from K12 education - spanning elementary school through high school - equally distributed across three disciplines, with 1,000 questions per discipline. The questions within VisScience span 21 distinct subjects and are categorized into five difficulty levels, offering a broad spectrum of topics within each discipline. With VisScience, we present a detailed evaluation of the performance of 25 representative MLLMs in scientific reasoning. Experimental results demonstrate that closed-source MLLMs generally outperform open-source models. The best performance observed include a 53.4\% accuracy in mathematics by Claude3.5-Sonnet, 38.2\% in physics by GPT-4o, and 47.0\% in chemistry by Gemini-1.5-Pro. These results underscore the strengths and limitations of MLLMs, suggesting areas for future improvement and highlighting the importance of developing models that can effectively handle the diverse demands of multi-modal scientific reasoning.
Abstract（参考訳）: MLLM(Multi-modal large language model)は、複雑なシナリオにおける視覚的理解を実現するために、テキスト情報と視覚情報を統合することで、様々なタスクにまたがる有望な能力を実証している。いくつかのベンチマークが利用可能であるにもかかわらず、MLLMは視覚的な質問応答から複雑な問題解決までタスクのMLLMを評価することを目的としており、主に数学や一般的な視覚的理解タスクに焦点を当てている。これは、物理や化学といった他の重要な科学分野を含めることをしばしば見落としている、現在のベンチマークにおける重要なギャップを明らかにしている。このギャップに対処するため、我々は、数学、物理学、化学の三分野にわたるマルチモーダルな科学的推論を評価するために、VisScienceという包括的なベンチマークを構築した。このベンチマークは、K12教育から引き出された3000の質問 - 小学校から高校まで - を3つの分野に均等に分散し、1つの分野に1000の質問がある。 VisScience内の質問は21の異なる主題に及び、5つの難易度に分類される。 VisScienceでは,25種の代表的MLLMの科学的推論における性能を詳細に評価する。実験により、クローズドソースMLLMは一般的にオープンソースモデルより優れていることが示された。最高性能は、クロード3.5-ソネットによる数学の53.4\%、GPT-4oによる物理学の38.2\%、ジェミニ1.5-Proによる化学の47.0\%である。これらの結果はMLLMの強みと限界を強調し、将来の改善の領域を示唆し、マルチモーダルな科学的推論の多様な要求を効果的に扱えるモデルを開発することの重要性を強調している。

関連論文リスト

HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文参考訳（メタデータ） (2025-12-28T12:08:05Z)
Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams [20.432924845981255]
大規模言語モデル(LLM)におけるマルチモーダルな科学的推論は依然として重要な課題である我々は,オリンピアド式化学質問のキュレートされたベンチマークを用いて,40のプロプライエタリかつオープンソースのマルチモーダルLCMを体系的に評価した。その結果,現在のMLLMの科学的推論能力に限界があることが判明した。
論文参考訳（メタデータ） (2025-12-17T00:49:00Z)
MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science [28.11660982198711]
MatSciBenchは1,340の問題からなる総合的な大学レベルのベンチマークである。 MatSciBenchは、物質科学の質問を6つの主要分野と31の亜分野に分類する構造的できめ細かな分類を特徴としている。先行モデルの評価によると、最高のパフォーマンスモデルであるGemini-2.5-Proでさえ、大学レベルの材料科学の質問に対して80%未満の精度で達成されている。
論文参考訳（メタデータ） (2025-10-14T05:59:40Z)
Multi-Physics: A Comprehensive Benchmark for Multimodal LLMs Reasoning on Chinese Multi-Subject Physics Problems [15.023749693065406]
我々は,5つの難易度を含む総合的なベンチマークである,中国の物理推論のためのマルチ物理について紹介する。我々は20種類のMLLMの評価に2つの評価フレームワークを使用し、最終回答精度とステップ・バイ・ステップの整合性の両方を分析した。
論文参考訳（メタデータ） (2025-09-19T10:18:48Z)
MME-SCI: A Comprehensive and Challenging Science Benchmark for Multimodal Large Language Models [27.425377320206444]
MLLM(Multimodal large language model)は、様々な領域において大きな進歩を遂げている。科学分野のベンチマークはMLLMの推論能力を評価する上で重要な役割を果たしてきた。 1)多言語シナリオにおけるモデルの推論能力の不十分な評価、2)MLLMの包括的なモダリティカバレッジの不十分な評価、3)科学的知識ポイントの詳細なアノテーションの欠如。
論文参考訳（メタデータ） (2025-08-19T15:27:55Z)
MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。 MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。 MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文参考訳（メタデータ） (2025-08-09T06:21:10Z)
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.518397361341556]
我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists' First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
論文参考訳（メタデータ） (2025-06-12T09:29:16Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。 6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文参考訳（メタデータ） (2025-04-08T08:06:53Z)
CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning [7.41837850475371]
我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。 CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
論文参考訳（メタデータ） (2025-03-14T17:53:03Z)
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文参考訳（メタデータ） (2025-02-05T04:05:27Z)
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges [25.82535441866882]
本調査は,マルチモーダル大言語モデル(MLLM)の時代における数学的推論の包括的解析である。 2021年以降に出版された200以上の研究を概観し,Math-LLMの最先端の展開について検討する。特に、マルチモーダルな数学的推論パイプラインと(M)LLMと関連する方法論について検討する。
論文参考訳（メタデータ） (2024-12-16T16:21:41Z)
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。 PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T20:35:41Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
Uni-SMART: Universal Science Multimodal Analysis and Research Transformer [22.90687836544612]
bfUni-textは科学文献の深い理解のために設計された革新的モデルである。ユニテキストは、他のテキスト中心のLLMよりも優れたパフォーマンスを示す。我々の探索は、特許侵害検出やグラフのニュアンス解析など、実用的な応用にまで及んでいる。
論文参考訳（メタデータ） (2024-03-15T13:43:47Z)
SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。 SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文参考訳（メタデータ） (2024-02-06T19:16:55Z)
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.21953221846596]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。被験者は30名、サブフィールドは183名、画像タイプは30名である。 14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文参考訳（メタデータ） (2023-11-27T17:33:21Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。