Fugu-MT 論文翻訳(概要): SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark

論文の概要: SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark

arxiv url: http://arxiv.org/abs/2402.05138v1
Date: Tue, 6 Feb 2024 19:16:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 17:57:07.715992
Title: SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark
Title（参考訳）: SceMQA: 学術大学入学レベルのマルチモーダル質問に対するベンチマーク
Authors: Zhenwen Liang, Kehan Guo, Gang Liu, Taicheng Guo, Yujun Zhou, Tianyu Yang, Jiajun Jiao, Renjie Pi, Jipeng Zhang, Xiangliang Zhang
Abstract要約: 本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。 SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
参考スコア（独自算出の注目度）: 42.91902601376494
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The paper introduces SceMQA, a novel benchmark for scientific multimodal question answering at the college entrance level. It addresses a critical educational phase often overlooked in existing benchmarks, spanning high school to pre-college levels. SceMQA focuses on core science subjects including Mathematics, Physics, Chemistry, and Biology. It features a blend of multiple-choice and free-response formats, ensuring a comprehensive evaluation of AI models' abilities. Additionally, our benchmark provides specific knowledge points for each problem and detailed explanations for each answer. SceMQA also uniquely presents problems with identical contexts but varied questions to facilitate a more thorough and accurate assessment of reasoning capabilities. In the experiment, we evaluate both open-source and close-source state-of-the-art Multimodal Large Language Models (MLLMs), across various experimental settings. The results show that further research and development are needed in developing more capable MLLM, as highlighted by only 50% to 60% accuracy achieved by the strongest models. Our benchmark and analysis will be available at https://scemqa.github.io/
Abstract（参考訳）: 本稿は,大学進学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークであるscemqaを紹介する。それは、しばしば既存のベンチマークで見過ごされる重要な教育段階に対処し、高校からプレコラージュレベルにまたがる。 SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。さらに,本ベンチマークでは,各問題に対する特定の知識ポイントと,各回答に対する詳細な説明を提供する。 SceMQAはまた、推論能力のより徹底的かつ正確な評価を促進するために、同じ文脈で問題を示すが、様々な質問を提供する。実験では,オープンソースのマルチモーダル大規模言語モデル (MLLM) を,様々な実験環境において評価した。その結果,最強モデルで達成される精度は50%から60%に過ぎず,より有能なMLLMの開発にはさらなる研究と開発が必要であることが示された。ベンチマークと分析はhttps://scemqa.github.io/で利用可能です。

関連論文リスト

PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs [8.99547238721909]
VLM(Vision-Language Models)は、マルチモーダル理解において顕著な進歩を示しているが、科学的推論の能力は依然として不十分である。 CSVQAは、領域的視覚的質問応答による科学的推論の評価に特化して設計された診断マルチモーダルベンチマークである。
論文参考訳（メタデータ） (2025-05-30T01:34:25Z)
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。 RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文参考訳（メタデータ） (2025-05-04T07:48:36Z)
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。 6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文参考訳（メタデータ） (2025-04-08T08:06:53Z)
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。最先端のMLLMのベンチマークでは、ピーク性能は53%であった。チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文参考訳（メタデータ） (2025-03-17T17:33:10Z)
"Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF) [41.09752906121257]
本稿では、フィードバック(MMSAF)問題と2,197個のデータポイントを併用したマルチモーダルショートアンサーグレーディングを提案する。評価の結果,既存のMLLM(Multimodal Large Language Models)では,解答が正解か正解かを55%の精度で予測することができた。同様に、学生の回答に提供される画像が75%の精度で関連しているか否かを予測することができる。
論文参考訳（メタデータ） (2024-12-27T17:33:39Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [32.811840681428464]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文参考訳（メタデータ） (2024-09-10T01:20:26Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning [16.032320995230734]
CMMUは,中国語における多モーダル・多型質問理解と推論のための新しいベンチマークである。 CMMUは7科目で3,603質問で構成され、小学校から高校までの知識をカバーしている。本稿では,複数質問に対する位置誤差分散という評価手法を提案する。
論文参考訳（メタデータ） (2024-01-25T08:22:10Z)
RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal Sentiment Classification [70.9087014537896]
目的指向型マルチモーダル感性分類(TMSC)は,学者の間でも注目されている。この問題の原因を明らかにするために,データセットの広範な実験的評価と詳細な分析を行う。
論文参考訳（メタデータ） (2023-10-14T14:52:37Z)
AGIBench: A Multi-granularity, Multimodal, Human-referenced, Auto-scoring Benchmark for Large Language Models [3.518832148294879]
ChatGPTのような大規模言語モデルの問題解決能力を評価する方法はホットスポットだが難しい問題だ。本稿では,LLMのマルチグラニュラ性,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。
論文参考訳（メタデータ） (2023-09-05T13:43:37Z)
M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文参考訳（メタデータ） (2023-06-08T13:21:29Z)
M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models [35.17226595231825]
M3KE(M3KE)は、多層多目的知識評価ベンチマークである。中国語の大規模言語モデルによって得られた知識を測定するために開発された。 71のタスクから20,477の質問を集めました。
論文参考訳（メタデータ） (2023-05-17T14:56:31Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。