Fugu-MT 論文翻訳(概要): SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

論文の概要: SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

arxiv url: http://arxiv.org/abs/2405.08807v1
Date: Tue, 14 May 2024 17:54:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 13:08:43.126215
Title: SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation
Title（参考訳）: SciFIBench: 科学的図式解釈のための大規模マルチモーダルモデルのベンチマーク
Authors: Jonathan Roberts, Kai Han, Neil Houlsby, Samuel Albanie,
Abstract要約: 本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。 SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。
参考スコア（独自算出の注目度）: 50.061029816288936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multimodal models (LMMs) have proven flexible and generalisable across many tasks and fields. Although they have strong potential to aid scientific research, their capabilities in this domain are not well characterised. A key aspect of scientific research is the ability to understand and interpret figures, which serve as a rich, compressed source of complex information. In this work, we present SciFIBench, a scientific figure interpretation benchmark. Our main benchmark consists of a 1000-question gold set of multiple-choice questions split between two tasks across 12 categories. The questions are curated from CS arXiv paper figures and captions, using adversarial filtering to find hard negatives and human verification for quality control. We evaluate 26 LMMs on SciFIBench, finding it to be a challenging benchmark. Finally, we investigate the alignment and reasoning faithfulness of the LMMs on augmented question sets from our benchmark. We release SciFIBench to encourage progress in this domain.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は多くのタスクや分野において柔軟で一般化可能であることが証明されている。科学的研究を支援する強い可能性を秘めているが、この領域におけるそれらの能力は十分に特徴づけられていない。科学的研究の重要な側面は、複雑な情報のリッチで圧縮された情報源として機能する図形を理解し解釈する能力である。本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。 SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。最後に,LMMのアライメントと忠実度を,我々のベンチマークによる拡張質問セット上で検討する。私たちはこの領域の進歩を促進するためにSciFIBenchをリリースします。

関連論文リスト

RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文参考訳（メタデータ） (2026-01-14T11:37:00Z)
HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文参考訳（メタデータ） (2025-12-28T12:08:05Z)
Format Matters: The Robustness of Multimodal LLMs in Reviewing Evidence from Tables and Charts [19.571644726057666]
我々は,表と表の両方を証拠として科学的クレームを検証するマルチモーダルな大規模言語モデルの能力を評価する実験を設計し,実施する。この適応したデータセットを用いて、12個のマルチモーダルLCMを評価し、グラフベースのエビデンスに苦慮しながら、現在のモデルがテーブルベースのエビデンスでより良い性能を発揮することを発見した。また,より小さなマルチモーダル LLM (8B以下) では,テーブルベースタスクとチャートベースタスクのパフォーマンスの相関が低く,クロスモーダル一般化の制限が示されている。
論文参考訳（メタデータ） (2025-11-13T08:29:47Z)
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies [16.537126902822127]
PRISMM-Benchは、科学論文において、実際のレビュアーがフラッグした不整合に基づいた最初のベンチマークである。不整合同定、治療、ペアマッチングという3つのタスクを設計し、不整合の検出、修正、推論を行うモデルの能力を評価する。我々は、大きなオープンウェイトモデル(GLM-4.5V 106B、InternVL3 78B)やプロプライエタリモデル(Gemini 2.5 Pro、GPT-5)を含む21のLMMをベンチマークした。
論文参考訳（メタデータ） (2025-10-18T13:46:26Z)
MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-30T15:09:14Z)
Towards Artificial Intelligence Research Assistant for Expert-Involved Learning [64.7438151207189]
大規模言語モデル (LLMs) と大規模多モードモデル (LMMs) は科学研究における変革的ツールとして登場している。 textbfExpert-involved textbfLearning (ARIEL)のためのtextbfARtificial textbfIntelligence Research Assistantを提案する。
論文参考訳（メタデータ） (2025-05-03T14:21:48Z)
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。 6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文参考訳（メタデータ） (2025-04-08T08:06:53Z)
MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems [12.931916288612483]
MMSciBenchは,テキストのみおよびテキストイメージ形式を用いて数学的および物理的推論を評価するためのベンチマークである。 MMSciBenchを厳密な標準として確立し、複雑な推論と視覚的テキストの統合において重要なギャップを明らかにする。
論文参考訳（メタデータ） (2025-02-27T15:38:43Z)
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。しかし、それらの空間的推論能力は未解明である。我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文参考訳（メタデータ） (2024-11-09T03:07:33Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。 LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文参考訳（メタデータ） (2024-10-13T05:26:36Z)
FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [22.245216871611678]
FAMMAは、金融マルチ言語によるマルチモーダル質問応答のためのオープンソースのベンチマークである。大学教科書と試験から精巧に収集された質問応答ペアは1,758個ある。ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T15:41:26Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
SciDFM: A Large Language Model with Mixture-of-Experts for Science [18.748699390397363]
我々は,SciDFMを紹介した。SciDFMは,スクラッチから訓練され,大学レベルの科学的推論を行うことができる。ドメイン固有のデータベースのデータだけでなく、さまざまな分野の科学論文や書籍を含む大規模学習コーパスを収集する。 SciDFMはSciEvalやSciQなどの一般的な科学的ベンチマークにおいて高い性能を示し、類似サイズのモデル間のドメイン固有ベンチマークにおいてSOTA性能に達することを示す。
論文参考訳（メタデータ） (2024-09-27T03:00:29Z)
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (2024-07-12T16:37:59Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。 SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文参考訳（メタデータ） (2024-02-06T19:16:55Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
MFBE: Leveraging Multi-Field Information of FAQs for Efficient Dense Retrieval [1.7403133838762446]
本稿では,複数組み合わせのFAQフィールドを利用するバイエンコーダベースのクエリ-FAQマッチングモデルを提案する。本モデルでは,内部およびオープンデータセットにおけるFAQ検索タスクにおいて,約27%,20%の精度でトップ1の精度を実現している。
論文参考訳（メタデータ） (2023-02-23T12:02:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。