論文の概要: SciClaimEval: Cross-modal Claim Verification in Scientific Papers
- arxiv url: http://arxiv.org/abs/2602.07621v2
- Date: Fri, 13 Feb 2026 11:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 15:25:03.274917
- Title: SciClaimEval: Cross-modal Claim Verification in Scientific Papers
- Title(参考訳): SciClaimEval:科学論文におけるクロスモーダルクレーム検証
- Authors: Xanh Ho, Yun-Ang Wu, Sunisth Kumar, Tian Cheng Xia, Florian Boudin, Andre Greiner-Petter, Akiko Aizawa,
- Abstract要約: 本稿では,クレーム検証タスクのための新しい科学的データセットであるSciClaimEvalを紹介する。
SciClaimEvalは、発行された論文から直接抽出された反論を含む、真正な主張を特徴としている。
反証クレームを作成するために,我々は,主張を変更するか,あるいは大きな言語モデル(LLM)に頼らずに,支持するエビデンス(図や表)を変更する新しいアプローチを導入する。
- 参考スコア(独自算出の注目度): 16.873180911172838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SciClaimEval, a new scientific dataset for the claim verification task. Unlike existing resources, SciClaimEval features authentic claims, including refuted ones, directly extracted from published papers. To create refuted claims, we introduce a novel approach that modifies the supporting evidence (figures and tables), rather than altering the claims or relying on large language models (LLMs) to fabricate contradictions. The dataset provides cross-modal evidence with diverse representations: figures are available as images, while tables are provided in multiple formats, including images, LaTeX source, HTML, and JSON. SciClaimEval contains 1,664 annotated samples from 180 papers across three domains, machine learning, natural language processing, and medicine, validated through expert annotation. We benchmark 11 multimodal foundation models, both open-source and proprietary, across the dataset. Results show that figure-based verification remains particularly challenging for all models, as a substantial performance gap remains between the best system and human baseline.
- Abstract(参考訳): 本稿では,クレーム検証タスクのための新しい科学的データセットであるSciClaimEvalを紹介する。
既存のリソースとは違って、SciClaimEvalは発行された論文から直接抽出した反響を含む真正なクレームを特徴としている。
反証クレームを作成するために,我々は,主張を変更するか,あるいは大きな言語モデル(LLM)に頼らずに,支持するエビデンス(図や表)を変更する新しいアプローチを導入する。
図はイメージとして利用でき、テーブルは画像、LaTeXソース、HTML、JSONを含む複数のフォーマットで提供される。
SciClaimEvalには3つのドメインにわたる180の論文から1,664の注釈付きサンプルが含まれている。
データセット全体にわたって、オープンソースとプロプライエタリの11のマルチモーダルファンデーションモデルをベンチマークします。
結果、最良のシステムと人間のベースラインの間には、かなりの性能差が残っているため、図形に基づく検証は、すべてのモデルにとって特に困難であることが示されている。
関連論文リスト
- DocDjinn: Controllable Synthetic Document Generation with VLMs and Handwriting Diffusion [5.342168661302001]
視覚言語モデル(VLM)を用いた制御可能な合成文書生成のための新しいフレームワークを提案する。
提案手法は,既存のソースデータセットの分布に従う視覚的かつ意味論的に一貫した合成文書を生成する。
我々のフレームワークは、実世界のデータセット全体のパフォーマンスに対して平均87%の価格で達成されていることを示す。
論文 参考訳(メタデータ) (2026-02-25T11:52:13Z) - Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Towards Knowledge-Aware Document Systems: Modeling Semantic Coverage Relations via Answerability Detection [40.12543056558646]
本稿では,セマンティックカバレッジ関係(SCR)をモデル化するための新しいフレームワークを提案する。
等価性、包摂性、セマンティックオーバーラップという3つのコア関係タイプを定義します。
質問応答(QA)に基づくアプローチでは,文書間で共有された質問の応答可能性を意味的カバレッジの指標として活用する。
論文 参考訳(メタデータ) (2025-09-10T06:00:01Z) - MCiteBench: A Multimodal Benchmark for Generating Text with Citations [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は主にテキストのみのコンテンツに対する引用の生成に重点を置いており、マルチモーダルシナリオの課題はほとんど解明されていない。
マルチモーダルな文脈で引用文を生成するMLLMの能力を評価するための最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Bridging Textual and Tabular Worlds for Fact Verification: A Lightweight, Attention-Based Model [34.1224836768324]
FEVEROUSは、事実抽出と検証タスクに焦点を当てた、ベンチマークおよび研究イニシアチブである。
本稿では,モダリティ変換の必要性を解消する,単純だが強力なモデルを提案する。
提案手法は,異なるデータ型間の遅延接続を効果的に利用することにより,包括的かつ信頼性の高い検証予測を実現する。
論文 参考訳(メタデータ) (2024-03-26T03:54:25Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - End-to-End Multimodal Fact-Checking and Explanation Generation: A
Challenging Dataset and Models [0.0]
エンドツーエンドのファクトチェックと説明生成を提案する。
目標は、主張の真理性を評価することであり、関連する証拠を取得し、真理性ラベルを予測することである。
この研究を支援するために15,601クレームからなる大規模データセットであるMochegを構築した。
論文 参考訳(メタデータ) (2022-05-25T04:36:46Z) - MiRANews: Dataset and Benchmarks for Multi-Resource-Assisted News
Summarization [19.062996443574047]
我々は、新しいデータセットMiRANewsと既存の要約モデルをベンチマークする。
データ分析を通じて、責任を負うのはモデルだけではないことを示します。
Assisted summarization is reduce 55% of Hallucination than single-document summarization model trained on the main article only。
論文 参考訳(メタデータ) (2021-09-22T10:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。