Fugu-MT 論文翻訳(概要): MuSciClaims: Multimodal Scientific Claim Verification

論文の概要: MuSciClaims: Multimodal Scientific Claim Verification

arxiv url: http://arxiv.org/abs/2506.04585v1
Date: Thu, 05 Jun 2025 02:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.504049
Title: MuSciClaims: Multimodal Scientific Claim Verification
Title（参考訳）: MuSciClaims: マルチモーダルな科学的主張の検証
Authors: Yash Kumar Lal, Manikanta Bandham, Mohammad Saqib Hasan, Apoorva Kashi, Mahnaz Koupaee, Niranjan Balasubramanian,
Abstract要約: 診断タスクを伴う新しいベンチマーク MuSciClaims を導入する。我々は科学論文から支持された主張を自動的に抽出し、矛盾する主張を生成するために手動で摂動する。その結果、ほとんどの視覚言語モデルは貧弱(0.3-0.5 F1)であり、最高のモデルでさえ0.77 F1しか達成していないことがわかった。
参考スコア（独自算出の注目度）: 13.598508835610474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assessing scientific claims requires identifying, extracting, and reasoning with multimodal data expressed in information-rich figures in scientific literature. Despite the large body of work in scientific QA, figure captioning, and other multimodal reasoning tasks over chart-based data, there are no readily usable multimodal benchmarks that directly test claim verification abilities. To remedy this gap, we introduce a new benchmark MuSciClaims accompanied by diagnostics tasks. We automatically extract supported claims from scientific articles, which we manually perturb to produce contradicted claims. The perturbations are designed to test for a specific set of claim verification capabilities. We also introduce a suite of diagnostic tasks that help understand model failures. Our results show most vision-language models are poor (~0.3-0.5 F1), with even the best model only achieving 0.77 F1. They are also biased towards judging claims as supported, likely misunderstanding nuanced perturbations within the claims. Our diagnostics show models are bad at localizing correct evidence within figures, struggle with aggregating information across modalities, and often fail to understand basic components of the figure.
Abstract（参考訳）: 科学的主張を評価するには、科学文献において情報豊富な数字で表される多モーダルなデータを特定し、抽出し、推論する必要がある。科学的なQAやフィギュアキャプション、チャートベースのデータに対する他のマルチモーダル推論タスクなど、膨大な量の作業があるにもかかわらず、クレーム検証能力を直接テストすることのできるマルチモーダルベンチマークは存在しない。このギャップを解消するために、診断タスクを伴う新しいベンチマーク MuSciClaims を導入する。我々は科学論文から支持された主張を自動的に抽出し、矛盾する主張を生成するために手動で摂動する。摂動は、特定のクレーム検証機能をテストするように設計されている。また、モデルの失敗を理解するのに役立つ一連の診断タスクも導入します。その結果、ほとんどの視覚言語モデルは貧弱(~0.3-0.5 F1)であり、最高のモデルでさえ0.77 F1しか達成していないことがわかった。クレームは、クレーム内での誤解された混乱を裏付けるものとして、クレームを判断する方向に偏っている。我々の診断では、モデルがフィギュア内の正しい証拠をローカライズし、モダリティ間の情報の集約に苦慮し、フィギュアの基本成分を理解できないことがしばしば示されている。

関連論文リスト

Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling [0.0]
視覚的質問応答への現在のアプローチは、科学データ解釈に必要な正確さに苦慮することが多い。我々はSciVQA 2025の共有課題に対して,学術論文からの科学的数字に基づく視覚的・非視覚的質問への回答に焦点をあてる。本研究は,視覚的質問応答におけるモデルの性能向上における,迅速な最適化,連鎖推論,アンサンブルモデリングの有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-07-08T17:05:42Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Enhancing Lie Detection Accuracy: A Comparative Study of Classic ML, CNN, and GCN Models using Audio-Visual Features [0.0]
ポリグラフ検査の不正確さは、しばしば誤った信念、誤った情報、偏見につながる。騙しを検出する方法として、顔の微小表現を解析する手法が登場した。 CNN Conv1Dマルチモーダルモデルは平均95.4%の精度を達成した。
論文参考訳（メタデータ） (2024-10-26T22:17:36Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。 MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-06T11:32:41Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。 SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文参考訳（メタデータ） (2023-05-22T16:13:50Z)
Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文参考訳（メタデータ） (2021-12-16T23:34:07Z)
Training Verifiers to Solve Math Word Problems [12.307284507186342]
GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。最大のトランスモデルでさえ高いテスト性能を達成できないことがわかった。性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
論文参考訳（メタデータ） (2021-10-27T04:49:45Z)
A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。 Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2021-06-02T05:40:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。