論文の概要: SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables
- arxiv url: http://arxiv.org/abs/2305.13186v1
- Date: Mon, 22 May 2023 16:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:38:45.674873
- Title: SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables
- Title(参考訳): SCITAB:科学表の合成推論とクレーム検証のためのベンチマーク
- Authors: Xinyuan Lu, Liangming Pan, Qian Liu, Preslav Nakov, Min-Yen Kan
- Abstract要約: 科学表を用いた構成推論を必要とする1,225の科学的主張からなる新しいデータセットであるSCITABを紹介する。
SCITABの主張は、実際の科学的声明から導かれ、証拠は実際の事実チェックのシナリオを忠実に反映した表として提示される。
我々はSCITABに最先端のモデルを用いてベンチマークを作成し、その固有の難しさを明らかにし、既存のプロンプト手法の限界を強調した。
- 参考スコア(独自算出の注目度): 42.88602497478246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific fact-checking is crucial for ensuring the accuracy, reliability,
and trustworthiness of scientific claims. However, existing benchmarks are
limited in terms of their claim diversity, reliance on text-based evidence, and
oversimplification of scientific reasoning. To address these gaps, we introduce
SCITAB, a novel dataset comprising 1,225 challenging scientific claims
requiring compositional reasoning with scientific tables. The claims in SCITAB
are derived from the actual scientific statements, and the evidence is
presented as tables, closely mirroring real-world fact-checking scenarios. We
establish benchmarks on SCITAB using state-of-the-art models, revealing its
inherent difficulty and highlighting limitations in existing prompting methods.
Our error analysis identifies unique challenges, including ambiguous
expressions and irrelevant claims, suggesting future research directions. The
code and the data are publicly available at
https://github.com/XinyuanLu00/SciTab.
- Abstract(参考訳): 科学的事実チェックは、科学的主張の正確性、信頼性、信頼性を保証するために重要である。
しかし、既存のベンチマークは、主張の多様性、テキストに基づく証拠への依存、科学的推論の単純化といった点で制限されている。
これらのギャップに対処するために、科学表による構成的推論を必要とする1,225の科学的主張からなる新しいデータセットSCITABを紹介する。
SCITABの主張は、実際の科学的声明から導かれ、証拠は実際の事実チェックのシナリオを忠実に反映した表として提示される。
最先端のモデルを用いてscitabのベンチマークを確立し,その本質的な難易度を明らかにし,既存のプロンプト手法の限界を強調する。
当社のエラー分析では,曖昧な表現や無関係なクレームを含むユニークな課題を特定し,今後の研究の方向性を示唆する。
コードとデータはhttps://github.com/XinyuanLu00/SciTab.comで公開されている。
関連論文リスト
- Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning [0.0]
回答の選択肢によって学習された規則性の違いは、モデルの好みを予測し、人間のテストテイク戦略を反映していることが示される。
我々は2つの新しい方法を紹介した: 思考の連鎖(CoT)と素素数CoT(Agnostically Primed CoT)による反実的プロンプト(APriCoT)である。
以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-16T10:34:50Z) - Robust Claim Verification Through Fact Detection [17.29665711917281]
我々の新しいアプローチであるFactDetectは、大規模言語モデル(LLM)を利用して、証拠から簡潔な事実文を生成する。
生成された事実は、クレームとエビデンスと組み合わせられる。
提案手法は,F1スコアにおいて,教師付きクレーム検証モデルにおいて,15%の競合結果を示す。
論文 参考訳(メタデータ) (2024-07-25T20:03:43Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。
我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。
その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文 参考訳(メタデータ) (2022-10-25T05:45:00Z) - Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。
科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。
また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文 参考訳(メタデータ) (2022-03-24T11:29:20Z) - RerrFact: Reduced Evidence Retrieval Representations for Scientific
Claim Verification [4.052777228128475]
本稿では,各予測サブタスクに対して連続的に二項分類を行うモジュラー手法を提案する。
我々は、まず非関連な有理を区別し、与えられた主張に対する支持または反証する有理を識別する2段階のスタンス予測を行う。
実験的に、我々のシステムRerrFactは微調整もシンプルな設計もせず、モデルパラメータのごく一部はリーダーボード上で競争的に公正である。
論文 参考訳(メタデータ) (2022-02-05T21:52:45Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。