論文の概要: SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark
- arxiv url: http://arxiv.org/abs/2402.05138v1
- Date: Tue, 6 Feb 2024 19:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:57:07.715992
- Title: SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark
- Title(参考訳): SceMQA: 学術大学入学レベルのマルチモーダル質問に対するベンチマーク
- Authors: Zhenwen Liang, Kehan Guo, Gang Liu, Taicheng Guo, Yujun Zhou, Tianyu
Yang, Jiajun Jiao, Renjie Pi, Jipeng Zhang, Xiangliang Zhang
- Abstract要約: 本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
- 参考スコア(独自算出の注目度): 42.91902601376494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper introduces SceMQA, a novel benchmark for scientific multimodal
question answering at the college entrance level. It addresses a critical
educational phase often overlooked in existing benchmarks, spanning high school
to pre-college levels. SceMQA focuses on core science subjects including
Mathematics, Physics, Chemistry, and Biology. It features a blend of
multiple-choice and free-response formats, ensuring a comprehensive evaluation
of AI models' abilities. Additionally, our benchmark provides specific
knowledge points for each problem and detailed explanations for each answer.
SceMQA also uniquely presents problems with identical contexts but varied
questions to facilitate a more thorough and accurate assessment of reasoning
capabilities. In the experiment, we evaluate both open-source and close-source
state-of-the-art Multimodal Large Language Models (MLLMs), across various
experimental settings. The results show that further research and development
are needed in developing more capable MLLM, as highlighted by only 50% to 60%
accuracy achieved by the strongest models. Our benchmark and analysis will be
available at https://scemqa.github.io/
- Abstract(参考訳): 本稿は,大学進学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークであるscemqaを紹介する。
それは、しばしば既存のベンチマークで見過ごされる重要な教育段階に対処し、高校からプレコラージュレベルにまたがる。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
さらに,本ベンチマークでは,各問題に対する特定の知識ポイントと,各回答に対する詳細な説明を提供する。
SceMQAはまた、推論能力のより徹底的かつ正確な評価を促進するために、同じ文脈で問題を示すが、様々な質問を提供する。
実験では,オープンソースのマルチモーダル大規模言語モデル (MLLM) を,様々な実験環境において評価した。
その結果,最強モデルで達成される精度は50%から60%に過ぎず,より有能なMLLMの開発にはさらなる研究と開発が必要であることが示された。
ベンチマークと分析はhttps://scemqa.github.io/で利用可能です。
関連論文リスト
- CMMU: A Benchmark for Chinese Multi-modal Multi-type Question
Understanding and Reasoning [16.72283636562743]
CMMUは,中国語における多モーダル・多型質問理解と推論のための新しいベンチマークである。
CMUは7科目で3,603の質問で構成され、小学校から高校までの知識をカバーしている。
本稿では,複数質問に対する評価を行うShiftCheckという厳格な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-01-25T08:22:10Z) - RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal
Sentiment Classification [70.9087014537896]
目的指向型マルチモーダル感性分類(TMSC)は,学者の間でも注目されている。
この問題の原因を明らかにするために,データセットの広範な実験的評価と詳細な分析を行う。
論文 参考訳(メタデータ) (2023-10-14T14:52:37Z) - AGIBench: A Multi-granularity, Multimodal, Human-referenced,
Auto-scoring Benchmark for Large Language Models [3.518832148294879]
ChatGPTのような大規模言語モデルの問題解決能力を評価する方法はホットスポットだが難しい問題だ。
本稿では,LLMのマルチグラニュラ性,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:43:37Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark
for Chinese Large Language Models [35.17226595231825]
M3KE(M3KE)は、多層多目的知識評価ベンチマークである。
中国語の大規模言語モデルによって得られた知識を測定するために開発された。
71のタスクから20,477の質問を集めました。
論文 参考訳(メタデータ) (2023-05-17T14:56:31Z) - Reinforcement Learning Guided Multi-Objective Exam Paper Generation [21.945655389912112]
そこで本研究では,MOEPGと呼ばれる多目的文書生成フレームワークを提案する。
難易度、試験スコアの配分、スキルカバレッジを含む3つの試験領域固有の目的を同時に最適化する。
試験用紙生成シナリオの多重ジレンマにMOEPGが適用可能であることを示す。
論文 参考訳(メタデータ) (2023-03-02T07:55:52Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。