論文の概要: SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
- arxiv url: http://arxiv.org/abs/2506.15569v1
- Date: Wed, 18 Jun 2025 15:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.727082
- Title: SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
- Title(参考訳): SciVer: マルチモーダル科学的クレーム検証のための基礎モデルの評価
- Authors: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao,
- Abstract要約: SciVerは1,113件の科学論文に3000件の専門家による注釈付き例からなり、4つのサブセットをカバーし、それぞれがマルチモーダルな科学的クレーム検証において共通の推論タイプを表している。
我々は、o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision、Qwen2.5-VLを含む21の最先端マルチモーダル基盤モデルの性能を評価する。
実験の結果,これらのモデルとSciVerの人間専門家の間には,かなりの性能差があることが判明した。
- 参考スコア(独自算出の注目度): 29.63899315962693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SciVer, the first benchmark specifically designed to evaluate the ability of foundation models to verify claims within a multimodal scientific context. SciVer consists of 3,000 expert-annotated examples over 1,113 scientific papers, covering four subsets, each representing a common reasoning type in multimodal scientific claim verification. To enable fine-grained evaluation, each example includes expert-annotated supporting evidence. We assess the performance of 21 state-of-the-art multimodal foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and Qwen2.5-VL. Our experiment reveals a substantial performance gap between these models and human experts on SciVer. Through an in-depth analysis of retrieval-augmented generation (RAG), and human-conducted error evaluations, we identify critical limitations in current open-source models, offering key insights to advance models' comprehension and reasoning in multimodal scientific literature tasks.
- Abstract(参考訳): SciVerは,マルチモーダルな科学的文脈内でのクレームの検証を行う基礎モデルの能力を評価するために設計された,最初のベンチマークである。
SciVerは1,113件の科学論文に3000件の専門家による注釈付き例からなり、4つのサブセットをカバーし、それぞれがマルチモーダルな科学的クレーム検証において共通の推論タイプを表している。
きめ細かい評価を可能にするため、各例には専門家が注釈を付けた証拠が含まれている。
我々は、o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision、Qwen2.5-VLを含む21の最先端マルチモーダル基盤モデルの性能を評価する。
実験の結果,これらのモデルとSciVerの人間専門家の間には,かなりの性能差があることが判明した。
検索強化世代(RAG)の詳細な分析と人為的エラー評価を通じて、現在のオープンソースモデルにおける重要な限界を特定し、マルチモーダル科学文献タスクにおけるモデルの理解と推論を前進させる重要な洞察を提供する。
関連論文リスト
- PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文 参考訳(メタデータ) (2025-05-21T18:33:50Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models [27.910693214922052]
基礎モデル評価のためのマルチモーダル・マルチドキュメント科学質問応答ベンチマークであるM3SciQAを紹介する。
M3SciQAは、70の自然言語処理用紙クラスタにまたがる1,452のエキスパート注釈付き質問からなる。
以上の結果から, 現状の基盤モデルは, マルチモーダル情報検索や複数の学術文献における推論において, 人的知識に比べ, 依然として著しく劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:52:01Z) - VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。
本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。
最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文 参考訳(メタデータ) (2024-09-10T01:20:26Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。
我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。
その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文 参考訳(メタデータ) (2022-10-25T05:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。