論文の概要: SciClaimEval: Cross-modal Claim Verification in Scientific Papers
- arxiv url: http://arxiv.org/abs/2602.07621v1
- Date: Sat, 07 Feb 2026 16:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.72567
- Title: SciClaimEval: Cross-modal Claim Verification in Scientific Papers
- Title(参考訳): SciClaimEval:科学論文におけるクロスモーダルクレーム検証
- Authors: Xanh Ho, Yun-Ang Wu, Sunisth Kumar, Tian Cheng Xia, Florian Boudin, Andre Greiner-Petter, Akiko Aizawa,
- Abstract要約: 本稿では,クレーム検証タスクのための新しい科学的データセットであるSciClaimEvalを紹介する。
SciClaimEvalは、発行された論文から直接抽出された反論を含む、真正な主張を特徴としている。
反証クレームを作成するために,我々は,主張を変更するか,あるいは大きな言語モデル(LLM)に頼らずに,支持するエビデンス(図や表)を変更する新しいアプローチを導入する。
- 参考スコア(独自算出の注目度): 16.873180911172838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SciClaimEval, a new scientific dataset for the claim verification task. Unlike existing resources, SciClaimEval features authentic claims, including refuted ones, directly extracted from published papers. To create refuted claims, we introduce a novel approach that modifies the supporting evidence (figures and tables), rather than altering the claims or relying on large language models (LLMs) to fabricate contradictions. The dataset provides cross-modal evidence with diverse representations: figures are available as images, while tables are provided in multiple formats, including images, LaTeX source, HTML, and JSON. SciClaimEval contains 1,664 annotated samples from 180 papers across three domains, machine learning, natural language processing, and medicine, validated through expert annotation. We benchmark 11 multimodal foundation models, both open-source and proprietary, across the dataset. Results show that figure-based verification remains particularly challenging for all models, as a substantial performance gap remains between the best system and human baseline.
- Abstract(参考訳): 本稿では,クレーム検証タスクのための新しい科学的データセットであるSciClaimEvalを紹介する。
既存のリソースとは違って、SciClaimEvalは発行された論文から直接抽出した反響を含む真正なクレームを特徴としている。
反証クレームを作成するために,我々は,主張を変更するか,あるいは大きな言語モデル(LLM)に頼らずに,支持するエビデンス(図や表)を変更する新しいアプローチを導入する。
図はイメージとして利用でき、テーブルは画像、LaTeXソース、HTML、JSONを含む複数のフォーマットで提供される。
SciClaimEvalには3つのドメインにわたる180の論文から1,664の注釈付きサンプルが含まれている。
データセット全体にわたって、オープンソースとプロプライエタリの11のマルチモーダルファンデーションモデルをベンチマークします。
結果、最良のシステムと人間のベースラインの間には、かなりの性能差が残っているため、図形に基づく検証は、すべてのモデルにとって特に困難であることが示されている。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Towards Knowledge-Aware Document Systems: Modeling Semantic Coverage Relations via Answerability Detection [40.12543056558646]
本稿では,セマンティックカバレッジ関係(SCR)をモデル化するための新しいフレームワークを提案する。
等価性、包摂性、セマンティックオーバーラップという3つのコア関係タイプを定義します。
質問応答(QA)に基づくアプローチでは,文書間で共有された質問の応答可能性を意味的カバレッジの指標として活用する。
論文 参考訳(メタデータ) (2025-09-10T06:00:01Z) - MCiteBench: A Multimodal Benchmark for Generating Text with Citations [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は主にテキストのみのコンテンツに対する引用の生成に重点を置いており、マルチモーダルシナリオの課題はほとんど解明されていない。
マルチモーダルな文脈で引用文を生成するMLLMの能力を評価するための最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Bridging Textual and Tabular Worlds for Fact Verification: A Lightweight, Attention-Based Model [34.1224836768324]
FEVEROUSは、事実抽出と検証タスクに焦点を当てた、ベンチマークおよび研究イニシアチブである。
本稿では,モダリティ変換の必要性を解消する,単純だが強力なモデルを提案する。
提案手法は,異なるデータ型間の遅延接続を効果的に利用することにより,包括的かつ信頼性の高い検証予測を実現する。
論文 参考訳(メタデータ) (2024-03-26T03:54:25Z) - End-to-End Multimodal Fact-Checking and Explanation Generation: A
Challenging Dataset and Models [0.0]
エンドツーエンドのファクトチェックと説明生成を提案する。
目標は、主張の真理性を評価することであり、関連する証拠を取得し、真理性ラベルを予測することである。
この研究を支援するために15,601クレームからなる大規模データセットであるMochegを構築した。
論文 参考訳(メタデータ) (2022-05-25T04:36:46Z) - MiRANews: Dataset and Benchmarks for Multi-Resource-Assisted News
Summarization [19.062996443574047]
我々は、新しいデータセットMiRANewsと既存の要約モデルをベンチマークする。
データ分析を通じて、責任を負うのはモデルだけではないことを示します。
Assisted summarization is reduce 55% of Hallucination than single-document summarization model trained on the main article only。
論文 参考訳(メタデータ) (2021-09-22T10:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。