Fugu-MT 論文翻訳(概要): M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models

論文の概要: M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models

arxiv url: http://arxiv.org/abs/2411.04075v1
Date: Wed, 06 Nov 2024 17:52:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.050236
Title: M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models
Title（参考訳）: M3SciQA: 基礎モデル評価のためのマルチモーダルマルチドキュメント科学QAベンチマーク
Authors: Chuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan,
Abstract要約: 基礎モデル評価のためのマルチモーダル・マルチドキュメント科学質問応答ベンチマークであるM3SciQAを紹介する。 M3SciQAは、70の自然言語処理用紙クラスタにまたがる1,452のエキスパート注釈付き質問からなる。以上の結果から, 現状の基盤モデルは, マルチモーダル情報検索や複数の学術文献における推論において, 人的知識に比べ, 依然として著しく劣っていることが示唆された。
参考スコア（独自算出の注目度）: 27.910693214922052
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing benchmarks for evaluating foundation models mainly focus on single-document, text-only tasks. However, they often fail to fully capture the complexity of research workflows, which typically involve interpreting non-textual data and gathering information across multiple documents. To address this gap, we introduce M3SciQA, a multi-modal, multi-document scientific question answering benchmark designed for a more comprehensive evaluation of foundation models. M3SciQA consists of 1,452 expert-annotated questions spanning 70 natural language processing paper clusters, where each cluster represents a primary paper along with all its cited documents, mirroring the workflow of comprehending a single paper by requiring multi-modal and multi-document data. With M3SciQA, we conduct a comprehensive evaluation of 18 foundation models. Our results indicate that current foundation models still significantly underperform compared to human experts in multi-modal information retrieval and in reasoning across multiple scientific documents. Additionally, we explore the implications of these findings for the future advancement of applying foundation models in multi-modal scientific literature analysis.
Abstract（参考訳）: 基礎モデルを評価するための既存のベンチマークは、主に単一ドキュメント、テキストのみのタスクに焦点を当てている。しかしながら、通常、テキスト以外のデータを解釈したり、複数のドキュメントにまたがる情報を収集する研究ワークフローの複雑さを完全に把握できないことが多い。このギャップに対処するため、我々はM3SciQA(M3SciQA)を紹介した。 M3SciQAは、70の自然言語処理用紙クラスタにまたがる1,452のエキスパート注釈付き質問からなる。 M3SciQAでは、18の基盤モデルの総合的な評価を行う。以上の結果から, 現状の基盤モデルは, マルチモーダル情報検索や複数の学術文献における推論において, 人的知識に比べ, 依然として著しく劣っていることが示唆された。さらに,これらの知見が,多モード科学文献解析における基礎モデルの適用の今後の発展にもたらす意味について考察する。

関連論文リスト

MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering [0.0]
マルチエンタリティ質問応答(MEQA)は,大規模言語モデル(LLM)において重要な課題である。 MEBenchは、断片化された情報の検索、統合、推論を行うLLMの能力を評価するために設計された、新しいマルチドキュメント、マルチエンタリティベンチマークである。本ベンチマークでは,MEQAタスクにおける情報抽出の完全性と事実的精度の重要性を強調した。
論文参考訳（メタデータ） (2025-02-26T09:56:51Z)
Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文参考訳（メタデータ） (2024-12-03T03:59:03Z)
Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers [20.273439120429025]
SciDQAは、科学論文の深い理解のためにLSMに挑戦する、理解を読むための新しいデータセットである。他の科学的QAデータセットとは異なり、SciDQAはドメインの専門家によるピアレビューや論文の著者による回答から質問を出している。 SciDQAの質問は、図、表、方程式、付属品、補足材料にまたがる推論を必要とする。
論文参考訳（メタデータ） (2024-11-08T05:28:22Z)
Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。 InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。また,LLM支援型評価器であるInsEvalを提案する。
論文参考訳（メタデータ） (2024-10-01T09:10:00Z)
A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文参考訳（メタデータ） (2024-09-21T15:22:26Z)
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (2024-07-12T16:37:59Z)
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文参考訳（メタデータ） (2024-06-17T15:13:52Z)
ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [21.17856299966841]
本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
論文参考訳（メタデータ） (2024-06-13T03:26:30Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2023-08-19T17:32:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。