論文の概要: MuSciClaims: Multimodal Scientific Claim Verification
- arxiv url: http://arxiv.org/abs/2506.04585v1
- Date: Thu, 05 Jun 2025 02:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.504049
- Title: MuSciClaims: Multimodal Scientific Claim Verification
- Title(参考訳): MuSciClaims: マルチモーダルな科学的主張の検証
- Authors: Yash Kumar Lal, Manikanta Bandham, Mohammad Saqib Hasan, Apoorva Kashi, Mahnaz Koupaee, Niranjan Balasubramanian,
- Abstract要約: 診断タスクを伴う新しいベンチマーク MuSciClaims を導入する。
我々は科学論文から支持された主張を自動的に抽出し、矛盾する主張を生成するために手動で摂動する。
その結果、ほとんどの視覚言語モデルは貧弱(0.3-0.5 F1)であり、最高のモデルでさえ0.77 F1しか達成していないことがわかった。
- 参考スコア(独自算出の注目度): 13.598508835610474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing scientific claims requires identifying, extracting, and reasoning with multimodal data expressed in information-rich figures in scientific literature. Despite the large body of work in scientific QA, figure captioning, and other multimodal reasoning tasks over chart-based data, there are no readily usable multimodal benchmarks that directly test claim verification abilities. To remedy this gap, we introduce a new benchmark MuSciClaims accompanied by diagnostics tasks. We automatically extract supported claims from scientific articles, which we manually perturb to produce contradicted claims. The perturbations are designed to test for a specific set of claim verification capabilities. We also introduce a suite of diagnostic tasks that help understand model failures. Our results show most vision-language models are poor (~0.3-0.5 F1), with even the best model only achieving 0.77 F1. They are also biased towards judging claims as supported, likely misunderstanding nuanced perturbations within the claims. Our diagnostics show models are bad at localizing correct evidence within figures, struggle with aggregating information across modalities, and often fail to understand basic components of the figure.
- Abstract(参考訳): 科学的主張を評価するには、科学文献において情報豊富な数字で表される多モーダルなデータを特定し、抽出し、推論する必要がある。
科学的なQAやフィギュアキャプション、チャートベースのデータに対する他のマルチモーダル推論タスクなど、膨大な量の作業があるにもかかわらず、クレーム検証能力を直接テストすることのできるマルチモーダルベンチマークは存在しない。
このギャップを解消するために、診断タスクを伴う新しいベンチマーク MuSciClaims を導入する。
我々は科学論文から支持された主張を自動的に抽出し、矛盾する主張を生成するために手動で摂動する。
摂動は、特定のクレーム検証機能をテストするように設計されている。
また、モデルの失敗を理解するのに役立つ一連の診断タスクも導入します。
その結果、ほとんどの視覚言語モデルは貧弱(~0.3-0.5 F1)であり、最高のモデルでさえ0.77 F1しか達成していないことがわかった。
クレームは、クレーム内での誤解された混乱を裏付けるものとして、クレームを判断する方向に偏っている。
我々の診断では、モデルがフィギュア内の正しい証拠をローカライズし、モダリティ間の情報の集約に苦慮し、フィギュアの基本成分を理解できないことがしばしば示されている。
関連論文リスト
- SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Enhancing Lie Detection Accuracy: A Comparative Study of Classic ML, CNN, and GCN Models using Audio-Visual Features [0.0]
ポリグラフ検査の不正確さは、しばしば誤った信念、誤った情報、偏見につながる。
騙しを検出する方法として、顔の微小表現を解析する手法が登場した。
CNN Conv1Dマルチモーダルモデルは平均95.4%の精度を達成した。
論文 参考訳(メタデータ) (2024-10-26T22:17:36Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - Training Verifiers to Solve Math Word Problems [12.307284507186342]
GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。
最大のトランスモデルでさえ高いテスト性能を達成できないことがわかった。
性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
論文 参考訳(メタデータ) (2021-10-27T04:49:45Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。