論文の概要: SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation
- arxiv url: http://arxiv.org/abs/2405.08807v2
- Date: Thu, 05 Dec 2024 17:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:25.579677
- Title: SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation
- Title(参考訳): SciFIBench: 科学的図式解釈のための大規模マルチモーダルモデルのベンチマーク
- Authors: Jonathan Roberts, Kai Han, Neil Houlsby, Samuel Albanie,
- Abstract要約: SciFIBenchは、2000の質問を8つのカテゴリに分けた科学的図形解釈ベンチマークである。
質問はarXiv紙のフィギュアとキャプションからキュレートされ、相手のフィルターを使ってハードネガティブを見つけ、品質管理のための人間による検証を行う。
我々はSciFIBench上で28LMMを評価し、これは挑戦的なベンチマークであることが判明した。
- 参考スコア(独自算出の注目度): 50.061029816288936
- License:
- Abstract: Large multimodal models (LMMs) have proven flexible and generalisable across many tasks and fields. Although they have strong potential to aid scientific research, their capabilities in this domain are not well characterised. A key aspect of scientific research is the ability to understand and interpret figures, which serve as a rich, compressed source of complex information. In this work, we present SciFIBench, a scientific figure interpretation benchmark consisting of 2000 questions split between two tasks across 8 categories. The questions are curated from arXiv paper figures and captions, using adversarial filtering to find hard negatives and human verification for quality control. We evaluate 28 LMMs on SciFIBench, finding it to be a challenging benchmark. Finally, we investigate the alignment and reasoning faithfulness of the LMMs on augmented question sets from our benchmark. We release SciFIBench to encourage progress in this domain.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は多くのタスクや分野において柔軟で一般化可能であることが証明されている。
科学的研究を支援する強い可能性を秘めているが、この領域におけるそれらの能力は十分に特徴づけられていない。
科学的研究の重要な側面は、複雑な情報のリッチで圧縮された情報源として機能するフィギュアを理解し解釈する能力である。
本研究では,SciFIBenchという,2000の質問を8つのカテゴリに分けた科学的図形解釈ベンチマークを提案する。
質問はarXiv紙のフィギュアとキャプションからキュレートされ、相手のフィルターを使ってハードネガティブを見つけ、品質管理のための人間による検証を行う。
我々はSciFIBench上で28LMMを評価し、これは挑戦的なベンチマークであることが判明した。
最後に,LMMのアライメントと忠実度を,我々のベンチマークによる拡張質問セット上で検討する。
私たちはこの領域の進歩を促進するためにSciFIBenchをリリースします。
関連論文リスト
- An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - SciDFM: A Large Language Model with Mixture-of-Experts for Science [18.748699390397363]
我々は,SciDFMを紹介した。SciDFMは,スクラッチから訓練され,大学レベルの科学的推論を行うことができる。
ドメイン固有のデータベースのデータだけでなく、さまざまな分野の科学論文や書籍を含む大規模学習コーパスを収集する。
SciDFMはSciEvalやSciQなどの一般的な科学的ベンチマークにおいて高い性能を示し、類似サイズのモデル間のドメイン固有ベンチマークにおいてSOTA性能に達することを示す。
論文 参考訳(メタデータ) (2024-09-27T03:00:29Z) - GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models [36.83397306207386]
グラフ解析のベンチマークであるGRABを現在および将来のLMMに適用する。
私たちのベンチマークは完全に総合的で、高品質でノイズフリーな質問を確実にします。
GRAB上で20のLMMを評価し、21.7%のスコアで最高のパフォーマンスのモデルで、挑戦的なベンチマークであることが判明した。
論文 参考訳(メタデータ) (2024-08-21T17:59:32Z) - SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - MFBE: Leveraging Multi-Field Information of FAQs for Efficient Dense
Retrieval [1.7403133838762446]
本稿では,複数組み合わせのFAQフィールドを利用するバイエンコーダベースのクエリ-FAQマッチングモデルを提案する。
本モデルでは,内部およびオープンデータセットにおけるFAQ検索タスクにおいて,約27%,20%の精度でトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-02-23T12:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。