論文の概要: MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers
- arxiv url: http://arxiv.org/abs/2503.16856v1
- Date: Fri, 21 Mar 2025 05:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:20.690559
- Title: MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers
- Title(参考訳): MMCR:科学論文におけるクロスソース推論のベンチマーク
- Authors: Yang Tian, Zheng Lu, Mingqi Gao, Zheng Liu, Bo Zhao,
- Abstract要約: この研究は、科学論文からのクロスソース情報を用いた推論のためのビジョンランゲージモデルの能力を評価するために設計されたベンチマークであるMMCRを提示する。
18のVLMによる実験では、既存のモデルに対して、クロスソース推論が重大な課題となることが示されている。
- 参考スコア(独自算出の注目度): 10.311462547308823
- License:
- Abstract: Fully comprehending scientific papers by machines reflects a high level of Artificial General Intelligence, requiring the ability to reason across fragmented and heterogeneous sources of information, presenting a complex and practically significant challenge. While Vision-Language Models (VLMs) have made remarkable strides in various tasks, particularly those involving reasoning with evidence source from single image or text page, their ability to use cross-source information for reasoning remains an open problem. This work presents MMCR, a high-difficulty benchmark designed to evaluate VLMs' capacity for reasoning with cross-source information from scientific papers. The benchmark comprises 276 high-quality questions, meticulously annotated by humans across 7 subjects and 10 task types. Experiments with 18 VLMs demonstrate that cross-source reasoning presents a substantial challenge for existing models. Notably, even the top-performing model, GPT-4o, achieved only 48.55% overall accuracy, with only 20% accuracy in multi-table comprehension tasks, while the second-best model, Qwen2.5-VL-72B, reached 39.86% overall accuracy. Furthermore, we investigated the impact of the Chain-of-Thought (CoT) technique on cross-source reasoning and observed a detrimental effect on small models, whereas larger models demonstrated substantially enhanced performance. These results highlight the pressing need to develop VLMs capable of effectively utilizing cross-source information for reasoning.
- Abstract(参考訳): 機械による完全に理解された科学論文は、人工知能の高度なレベルを反映し、断片的で異質な情報のソースをまたいで推論する能力を必要とし、複雑で事実上重要な課題を提示している。
VLM(Vision-Language Models)は様々なタスク、特に単一画像やテキストページからの証拠を推論する作業において顕著な進歩を遂げてきたが、推論にクロスソース情報を使用する能力は依然として未解決の課題である。
この研究は、科学論文からのクロスソース情報を用いた推論のためのVLMの能力を評価するために設計された高次ベンチマークであるMMCRを提示する。
このベンチマークは、人間によって7つの被験者と10種類のタスクに対して慎重に注釈付けされた276の高品質な質問で構成されている。
18のVLMによる実験では、既存のモデルに対して、クロスソース推論が重大な課題となることが示されている。
特に、トップパフォーマンスモデルであるGPT-4oでさえ、総合精度は48.55%に過ぎず、マルチテーブルの理解タスクでは20%の精度しか得られなかった。
さらに,CoT(Chain-of-Thought)技術がクロスソース推論に与える影響について検討し,小型モデルに有害な影響が認められたが,大型モデルでは性能が大幅に向上した。
これらの結果から,複数ソース情報による推論を効果的に活用できるVLMの開発を推し進める必要性が浮き彫りになった。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz [0.0]
我々は、675の根本的な解決不可能な問題に対して不確実性を認識できる大規模言語モデル(LLM)の能力を評価する。
62-68%の精度で得られた最良のモデルは、生物学から哲学、数学まで様々な分野において未知であった。
論文 参考訳(メタデータ) (2024-11-20T04:12:29Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training [9.128501882000315]
大規模言語モデル(LLM)は、長い文脈で正しい情報を求めるのに苦労している。
本稿では,LLMの長期的コンテキストにおける情報探索と反射能力の向上を,特別に設計されたタスクを通して行うことを提案する。
実験の結果、マルチドックQAやその他のベンチマークでは、シャッフル設定において、最先端モデルよりも13.7%向上した。
論文 参考訳(メタデータ) (2023-11-15T18:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。