論文の概要: SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems
- arxiv url: http://arxiv.org/abs/2503.10627v1
- Date: Thu, 13 Mar 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:20.877951
- Title: SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems
- Title(参考訳): SciVerse:マルチモーダル科学問題におけるLMMの知識理解と視覚的推論の展開
- Authors: Ziyu Guo, Ray Zhang, Hao Chen, Jialin Gao, Dongzhi Jiang, Jiaze Wang, Pheng-Ann Heng,
- Abstract要約: 我々は、LMM(Large Multi-modal Models)を徹底的に評価するマルチモーダル科学評価ベンチマークであるSciVerseを紹介する。
我々は,LMMの3つの重要な側面として,科学的知識理解,マルチモーダルコンテンツ解釈,CoT(Chain-of-Thought)推論について検討することを目的とする。
SciVerse上での異なるLMMの広範な評価は、その科学的習熟度における限界を明らかにし、今後の発展に対する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 41.69093932236271
- License:
- Abstract: The rapid advancement of Large Multi-modal Models (LMMs) has enabled their application in scientific problem-solving, yet their fine-grained capabilities remain under-explored. In this paper, we introduce SciVerse, a multi-modal scientific evaluation benchmark to thoroughly assess LMMs across 5,735 test instances in five distinct versions. We aim to investigate three key dimensions of LMMs: scientific knowledge comprehension, multi-modal content interpretation, and Chain-of-Thought (CoT) reasoning. To unveil whether LMMs possess sufficient scientific expertise, we first transform each problem into three versions containing different levels of knowledge required for solving, i.e., Knowledge-free, -lite, and -rich. Then, to explore how LMMs interpret multi-modal scientific content, we annotate another two versions, i.e., Vision-rich and -only, marking more question information from texts to diagrams. Comparing the results of different versions, SciVerse systematically examines the professional knowledge stock and visual perception skills of LMMs in scientific domains. In addition, to rigorously assess CoT reasoning, we propose a new scientific CoT evaluation strategy, conducting a step-wise assessment on knowledge and logical errors in model outputs. Our extensive evaluation of different LMMs on SciVerse reveals critical limitations in their scientific proficiency and provides new insights into future developments. Project page: https://sciverse-cuhk.github.io
- Abstract(参考訳): LMM(Large Multi-modal Models)の急速な進歩により、科学的な問題解決に応用できるようになったが、その細粒度は未解明のままである。
本稿では,5つの異なるバージョンで5,735のテストインスタンスにわたるLMMを徹底的に評価する,マルチモーダルな科学的評価ベンチマークであるSciVerseを紹介する。
我々は,LMMの3つの重要な側面として,科学的知識理解,マルチモーダルコンテンツ解釈,CoT(Chain-of-Thought)推論について検討することを目的とする。
LMMが十分な科学的知識を持っているかどうかを明らかにするために、まず、各問題を3つのバージョンに変換し、解決に必要な知識、すなわち知識のない、礼儀正しい、そして豊かな知識を含む。
次に、LMMがマルチモーダルな科学内容をどのように解釈するかを探るため、テキストからダイアグラムへの質問情報をマークする、ビジョンリッチと-onlyの2つのバージョンを注釈付けする。
SciVerseは、異なるバージョンを比較して、科学領域におけるLMMの専門的知識ストックと視覚的知覚スキルを体系的に検証する。
さらに,CoT推論を厳格に評価するために,モデル出力における知識と論理的誤りを段階的に評価する,新しい科学的CoT評価戦略を提案する。
SciVerse上での異なるLMMの広範な評価は、その科学的習熟度における限界を明らかにし、今後の発展に対する新たな洞察を提供する。
プロジェクトページ: https://sciverse-cuhk.github.io
関連論文リスト
- Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - Uni-SMART: Universal Science Multimodal Analysis and Research Transformer [22.90687836544612]
bfUni-textは科学文献の深い理解のために設計された革新的モデルである。
ユニテキストは、他のテキスト中心のLLMよりも優れたパフォーマンスを示す。
我々の探索は、特許侵害検出やグラフのニュアンス解析など、実用的な応用にまで及んでいる。
論文 参考訳(メタデータ) (2024-03-15T13:43:47Z) - CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark [53.24896036161829]
大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-22T13:34:34Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。