Fugu-MT 論文翻訳(概要): SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

論文の概要: SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

arxiv url: http://arxiv.org/abs/2405.08807v2
Date: Thu, 05 Dec 2024 17:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.536165
Title: SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation
Title（参考訳）: SciFIBench: 科学的図式解釈のための大規模マルチモーダルモデルのベンチマーク
Authors: Jonathan Roberts, Kai Han, Neil Houlsby, Samuel Albanie,
Abstract要約: SciFIBenchは、2000の質問を8つのカテゴリに分けた科学的図形解釈ベンチマークである。質問はarXiv紙のフィギュアとキャプションからキュレートされ、相手のフィルターを使ってハードネガティブを見つけ、品質管理のための人間による検証を行う。我々はSciFIBench上で28LMMを評価し、これは挑戦的なベンチマークであることが判明した。
参考スコア（独自算出の注目度）: 50.061029816288936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multimodal models (LMMs) have proven flexible and generalisable across many tasks and fields. Although they have strong potential to aid scientific research, their capabilities in this domain are not well characterised. A key aspect of scientific research is the ability to understand and interpret figures, which serve as a rich, compressed source of complex information. In this work, we present SciFIBench, a scientific figure interpretation benchmark consisting of 2000 questions split between two tasks across 8 categories. The questions are curated from arXiv paper figures and captions, using adversarial filtering to find hard negatives and human verification for quality control. We evaluate 28 LMMs on SciFIBench, finding it to be a challenging benchmark. Finally, we investigate the alignment and reasoning faithfulness of the LMMs on augmented question sets from our benchmark. We release SciFIBench to encourage progress in this domain.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は多くのタスクや分野において柔軟で一般化可能であることが証明されている。科学的研究を支援する強い可能性を秘めているが、この領域におけるそれらの能力は十分に特徴づけられていない。科学的研究の重要な側面は、複雑な情報のリッチで圧縮された情報源として機能するフィギュアを理解し解釈する能力である。本研究では,SciFIBenchという,2000の質問を8つのカテゴリに分けた科学的図形解釈ベンチマークを提案する。質問はarXiv紙のフィギュアとキャプションからキュレートされ、相手のフィルターを使ってハードネガティブを見つけ、品質管理のための人間による検証を行う。我々はSciFIBench上で28LMMを評価し、これは挑戦的なベンチマークであることが判明した。最後に,LMMのアライメントと忠実度を,我々のベンチマークによる拡張質問セット上で検討する。私たちはこの領域の進歩を促進するためにSciFIBenchをリリースします。

関連論文リスト

MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。 6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文参考訳（メタデータ） (2025-04-08T08:06:53Z)
MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems [12.931916288612483]
MMSciBenchは,テキストのみおよびテキストイメージ形式を用いて数学的および物理的推論を評価するためのベンチマークである。 MMSciBenchを厳密な標準として確立し、複雑な推論と視覚的テキストの統合において重要なギャップを明らかにする。
論文参考訳（メタデータ） (2025-02-27T15:38:43Z)
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。しかし、それらの空間的推論能力は未解明である。我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文参考訳（メタデータ） (2024-11-09T03:07:33Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。 LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文参考訳（メタデータ） (2024-10-13T05:26:36Z)
FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [22.245216871611678]
FAMMAは、金融マルチ言語によるマルチモーダル質問応答のためのオープンソースのベンチマークである。大学教科書と試験から精巧に収集された質問応答ペアは1,758個ある。ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T15:41:26Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
SciDFM: A Large Language Model with Mixture-of-Experts for Science [18.748699390397363]
我々は,SciDFMを紹介した。SciDFMは,スクラッチから訓練され,大学レベルの科学的推論を行うことができる。ドメイン固有のデータベースのデータだけでなく、さまざまな分野の科学論文や書籍を含む大規模学習コーパスを収集する。 SciDFMはSciEvalやSciQなどの一般的な科学的ベンチマークにおいて高い性能を示し、類似サイズのモデル間のドメイン固有ベンチマークにおいてSOTA性能に達することを示す。
論文参考訳（メタデータ） (2024-09-27T03:00:29Z)
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (2024-07-12T16:37:59Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。 SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文参考訳（メタデータ） (2024-02-06T19:16:55Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
MFBE: Leveraging Multi-Field Information of FAQs for Efficient Dense Retrieval [1.7403133838762446]
本稿では,複数組み合わせのFAQフィールドを利用するバイエンコーダベースのクエリ-FAQマッチングモデルを提案する。本モデルでは,内部およびオープンデータセットにおけるFAQ検索タスクにおいて,約27%,20%の精度でトップ1の精度を実現している。
論文参考訳（メタデータ） (2023-02-23T12:02:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。