論文の概要: M2-Verify: A Large-Scale Multidomain Benchmark for Checking Multimodal Claim Consistency
- arxiv url: http://arxiv.org/abs/2604.01306v1
- Date: Wed, 01 Apr 2026 18:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.760782
- Title: M2-Verify: A Large-Scale Multidomain Benchmark for Checking Multimodal Claim Consistency
- Title(参考訳): M2-Verify:マルチモーダルクレーム一貫性をチェックするための大規模マルチドメインベンチマーク
- Authors: Abolfazl Ansari, Delvin Ce Zhang, Zhuoyang Zou, Wenpeng Yin, Dongwon Lee,
- Abstract要約: M2-Verifyは、科学的クレーム一貫性をチェックするための大規模なマルチモーダルデータセットである。
16のドメインで469万以上のインスタンスを提供し、専門家の監査を通じて厳格に検証されている。
- 参考スコア(独自算出の注目度): 17.049806985851994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating scientific arguments requires assessing the strict consistency between a claim and its underlying multimodal evidence. However, existing benchmarks lack the scale, domain diversity, and visual complexity needed to evaluate this alignment realistically. To address this gap, we introduce M2-Verify, a large-scale multimodal dataset for checking scientific claim consistency. Sourced from PubMed and arXiv, M2-Verify provides over 469K instances across 16 domains, rigorously validated through expert audits. Extensive baseline experiments show that state-of-the-art models struggle to maintain robust consistency. While top models achieve up to 85.8\% Micro-F1 on low-complexity medical perturbations, performance drops to 61.6\% on high-complexity challenges like anatomical shifts. Furthermore, expert evaluations expose hallucinations when models generate scientific explanations for their alignment decisions. Finally, we demonstrate our dataset's utility and provide comprehensive usage guidelines.
- Abstract(参考訳): 科学的議論を評価するには、クレームとその根底にあるマルチモーダル証拠の間の厳密な一貫性を評価する必要がある。
しかし、既存のベンチマークには、このアライメントを現実的に評価するために必要なスケール、ドメインの多様性、視覚的な複雑さが欠けている。
このギャップに対処するために、科学的なクレームの整合性をチェックするための大規模マルチモーダルデータセットであるM2-Verifyを導入する。
PubMedとarXivをソースとして、M2-Verifyは16ドメインにわたる469万のインスタンスを提供する。
大規模なベースライン実験は、最先端のモデルが堅牢な一貫性を維持するのに苦労していることを示している。
上位モデルは、低複雑さの医療摂動において85.8\%のマイクロF1を達成するが、解剖学的シフトのような複雑度の高い課題では、パフォーマンスは61.6\%に低下する。
さらに、専門家による評価は、モデルがアライメント決定のための科学的説明を生成するときの幻覚を明らかにする。
最後に、データセットの有用性を実証し、包括的な利用ガイドラインを提供します。
関連論文リスト
- MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies [16.537126902822127]
PRISMM-Benchは、科学論文において、実際のレビュアーがフラッグした不整合に基づいた最初のベンチマークである。
不整合同定、治療、ペアマッチングという3つのタスクを設計し、不整合の検出、修正、推論を行うモデルの能力を評価する。
我々は、大きなオープンウェイトモデル(GLM-4.5V 106B、InternVL3 78B)やプロプライエタリモデル(Gemini 2.5 Pro、GPT-5)を含む21のLMMをベンチマークした。
論文 参考訳(メタデータ) (2025-10-18T13:46:26Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - MuSciClaims: Multimodal Scientific Claim Verification [13.598508835610474]
診断タスクを伴う新しいベンチマーク MuSciClaims を導入する。
我々は科学論文から支持された主張を自動的に抽出し、矛盾する主張を生成するために手動で摂動する。
その結果、ほとんどの視覚言語モデルは貧弱(0.3-0.5 F1)であり、最高のモデルでさえ0.72 F1しか達成していないことがわかった。
論文 参考訳(メタデータ) (2025-06-05T02:59:51Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
SciFIBenchは、2000の質問を8つのカテゴリに分けた科学的図形解釈ベンチマークである。
質問はarXiv紙のフィギュアとキャプションからキュレートされ、相手のフィルターを使ってハードネガティブを見つけ、品質管理のための人間による検証を行う。
我々はSciFIBench上で28LMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文 参考訳(メタデータ) (2024-05-14T17:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。