論文の概要: Format Matters: The Robustness of Multimodal LLMs in Reviewing Evidence from Tables and Charts
- arxiv url: http://arxiv.org/abs/2511.10075v1
- Date: Fri, 14 Nov 2025 01:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.682618
- Title: Format Matters: The Robustness of Multimodal LLMs in Reviewing Evidence from Tables and Charts
- Title(参考訳): Format Matters:テーブルとチャートからのエビデンスレビューにおけるマルチモーダルLCMのロバスト性
- Authors: Xanh Ho, Yun-Ang Wu, Sunisth Kumar, Florian Boudin, Atsuhiro Takasu, Akiko Aizawa,
- Abstract要約: 我々は,表と表の両方を証拠として科学的クレームを検証するマルチモーダルな大規模言語モデルの能力を評価する実験を設計し,実施する。
この適応したデータセットを用いて、12個のマルチモーダルLCMを評価し、グラフベースのエビデンスに苦慮しながら、現在のモデルがテーブルベースのエビデンスでより良い性能を発揮することを発見した。
また,より小さなマルチモーダル LLM (8B以下) では,テーブルベースタスクとチャートベースタスクのパフォーマンスの相関が低く,クロスモーダル一般化の制限が示されている。
- 参考スコア(独自算出の注目度): 19.571644726057666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing number of submitted scientific papers, there is an increasing demand for systems that can assist reviewers in evaluating research claims. Experimental results are a core component of scientific work, often presented in varying formats such as tables or charts. Understanding how robust current multimodal large language models (multimodal LLMs) are at verifying scientific claims across different evidence formats remains an important and underexplored challenge. In this paper, we design and conduct a series of experiments to assess the ability of multimodal LLMs to verify scientific claims using both tables and charts as evidence. To enable this evaluation, we adapt two existing datasets of scientific papers by incorporating annotations and structures necessary for a multimodal claim verification task. Using this adapted dataset, we evaluate 12 multimodal LLMs and find that current models perform better with table-based evidence while struggling with chart-based evidence. We further conduct human evaluations and observe that humans maintain strong performance across both formats, unlike the models. Our analysis also reveals that smaller multimodal LLMs (under 8B) show weak correlation in performance between table-based and chart-based tasks, indicating limited cross-modal generalization. These findings highlight a critical gap in current models' multimodal reasoning capabilities. We suggest that future multimodal LLMs should place greater emphasis on improving chart understanding to better support scientific claim verification.
- Abstract(参考訳): 提出された学術論文の増加に伴い、調査請求の評価においてレビュアーを支援するシステムへの需要が高まっている。
実験結果は科学研究の中核的な要素であり、しばしば表やチャートのような様々な形式で表される。
現在のマルチモーダルな大規模言語モデル (multimodal LLM) が、様々なエビデンスフォーマットにわたる科学的主張の検証においていかに堅牢かを理解することは、依然として重要で未解明の課題である。
本稿では,表と表の両方を証拠として科学的クレームを検証するためのマルチモーダルLLMの能力を評価するための一連の実験を設計し,実施する。
この評価を実現するために、我々は、マルチモーダルクレーム検証タスクに必要なアノテーションと構造を組み込むことで、既存の2つの科学論文データセットを適用した。
この適応したデータセットを用いて、12個のマルチモーダルLCMを評価し、グラフベースのエビデンスに苦慮しながら、現在のモデルがテーブルベースのエビデンスでより良い性能を発揮することを発見した。
我々は、さらに人間の評価を行い、モデルとは異なり、人間が両方のフォーマットで強いパフォーマンスを維持することを観察する。
また,より小さいマルチモーダル LLM (8B以下) では,テーブルベースタスクとチャートベースタスクのパフォーマンスの相関が低く,クロスモーダル一般化の制限が示されている。
これらの結果は、現在のモデルにおけるマルチモーダル推論能力の重大なギャップを浮き彫りにしている。
今後のマルチモーダル LLM は,科学的クレーム検証を支援するため,チャート理解の向上に重点を置くべきである。
関連論文リスト
- A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文 参考訳(メタデータ) (2024-07-18T01:33:20Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。