Fugu-MT 論文翻訳(概要): SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables

論文の概要: SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables

arxiv url: http://arxiv.org/abs/2305.13186v1
Date: Mon, 22 May 2023 16:13:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 14:38:45.674873
Title: SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables
Title（参考訳）: SCITAB:科学表の合成推論とクレーム検証のためのベンチマーク
Authors: Xinyuan Lu, Liangming Pan, Qian Liu, Preslav Nakov, Min-Yen Kan
Abstract要約: 科学表を用いた構成推論を必要とする1,225の科学的主張からなる新しいデータセットであるSCITABを紹介する。 SCITABの主張は、実際の科学的声明から導かれ、証拠は実際の事実チェックのシナリオを忠実に反映した表として提示される。我々はSCITABに最先端のモデルを用いてベンチマークを作成し、その固有の難しさを明らかにし、既存のプロンプト手法の限界を強調した。
参考スコア（独自算出の注目度）: 42.88602497478246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scientific fact-checking is crucial for ensuring the accuracy, reliability, and trustworthiness of scientific claims. However, existing benchmarks are limited in terms of their claim diversity, reliance on text-based evidence, and oversimplification of scientific reasoning. To address these gaps, we introduce SCITAB, a novel dataset comprising 1,225 challenging scientific claims requiring compositional reasoning with scientific tables. The claims in SCITAB are derived from the actual scientific statements, and the evidence is presented as tables, closely mirroring real-world fact-checking scenarios. We establish benchmarks on SCITAB using state-of-the-art models, revealing its inherent difficulty and highlighting limitations in existing prompting methods. Our error analysis identifies unique challenges, including ambiguous expressions and irrelevant claims, suggesting future research directions. The code and the data are publicly available at https://github.com/XinyuanLu00/SciTab.
Abstract（参考訳）: 科学的事実チェックは、科学的主張の正確性、信頼性、信頼性を保証するために重要である。しかし、既存のベンチマークは、主張の多様性、テキストに基づく証拠への依存、科学的推論の単純化といった点で制限されている。これらのギャップに対処するために、科学表による構成的推論を必要とする1,225の科学的主張からなる新しいデータセットSCITABを紹介する。 SCITABの主張は、実際の科学的声明から導かれ、証拠は実際の事実チェックのシナリオを忠実に反映した表として提示される。最先端のモデルを用いてscitabのベンチマークを確立し,その本質的な難易度を明らかにし,既存のプロンプト手法の限界を強調する。当社のエラー分析では,曖昧な表現や無関係なクレームを含むユニークな課題を特定し,今後の研究の方向性を示唆する。コードとデータはhttps://github.com/XinyuanLu00/SciTab.comで公開されている。

関連論文リスト

Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文参考訳（メタデータ） (2025-06-08T02:46:22Z)
MuSciClaims: Multimodal Scientific Claim Verification [13.598508835610474]
診断タスクを伴う新しいベンチマーク MuSciClaims を導入する。我々は科学論文から支持された主張を自動的に抽出し、矛盾する主張を生成するために手動で摂動する。その結果、ほとんどの視覚言語モデルは貧弱(0.3-0.5 F1)であり、最高のモデルでさえ0.72 F1しか達成していないことがわかった。
論文参考訳（メタデータ） (2025-06-05T02:59:51Z)
Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning [0.0]
回答の選択肢によって学習された規則性の違いは、モデルの好みを予測し、人間のテストテイク戦略を反映していることが示される。我々は2つの新しい方法を紹介した: 思考の連鎖(CoT)と素素数CoT(Agnostically Primed CoT)による反実的プロンプト(APriCoT)である。以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
論文参考訳（メタデータ） (2024-08-16T10:34:50Z)
Robust Claim Verification Through Fact Detection [17.29665711917281]
我々の新しいアプローチであるFactDetectは、大規模言語モデル(LLM)を利用して、証拠から簡潔な事実文を生成する。生成された事実は、クレームとエビデンスと組み合わせられる。提案手法は,F1スコアにおいて,教師付きクレーム検証モデルにおいて,15%の競合結果を示す。
論文参考訳（メタデータ） (2024-07-25T20:03:43Z)
WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文参考訳（メタデータ） (2023-03-02T17:45:32Z)
SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文参考訳（メタデータ） (2022-10-25T05:45:00Z)
Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文参考訳（メタデータ） (2022-03-24T11:29:20Z)
RerrFact: Reduced Evidence Retrieval Representations for Scientific Claim Verification [4.052777228128475]
本稿では,各予測サブタスクに対して連続的に二項分類を行うモジュラー手法を提案する。我々は、まず非関連な有理を区別し、与えられた主張に対する支持または反証する有理を識別する2段階のスタンス予測を行う。実験的に、我々のシステムRerrFactは微調整もシンプルな設計もせず、モデルパラメータのごく一部はリーダーボード上で競争的に公正である。
論文参考訳（メタデータ） (2022-02-05T21:52:45Z)
A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。 Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2021-06-02T05:40:12Z)
ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文参考訳（メタデータ） (2020-02-11T11:54:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。