論文の概要: SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables
- arxiv url: http://arxiv.org/abs/2305.13186v2
- Date: Thu, 19 Oct 2023 21:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 07:52:02.182196
- Title: SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables
- Title(参考訳): SCITAB:科学表の合成推論とクレーム検証のためのベンチマーク
- Authors: Xinyuan Lu, Liangming Pan, Qian Liu, Preslav Nakov, Min-Yen Kan
- Abstract要約: 本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
- 参考スコア(独自算出の注目度): 68.76415918462418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current scientific fact-checking benchmarks exhibit several shortcomings,
such as biases arising from crowd-sourced claims and an over-reliance on
text-based evidence. We present SCITAB, a challenging evaluation dataset
consisting of 1.2K expert-verified scientific claims that 1) originate from
authentic scientific publications and 2) require compositional reasoning for
verification. The claims are paired with evidence-containing scientific tables
annotated with labels. Through extensive evaluations, we demonstrate that
SCITAB poses a significant challenge to state-of-the-art models, including
table-based pretraining models and large language models. All models except
GPT-4 achieved performance barely above random guessing. Popular prompting
techniques, such as Chain-of-Thought, do not achieve much performance gains on
SCITAB. Our analysis uncovers several unique challenges posed by SCITAB,
including table grounding, claim ambiguity, and compositional reasoning. Our
codes and data are publicly available at https://github.com/XinyuanLu00/SciTab.
- Abstract(参考訳): 現在の科学的事実チェックベンチマークでは、クラウドソースによる主張によるバイアスや、テキストベースの証拠への過度な依存など、いくつかの欠点が示されている。
SCITABは、専門家による1.2Kの科学的主張からなる挑戦的評価データセットである。
1)真正な科学論文から派生し、
2) 検証には構成的推論が必要である。
この主張は、ラベルが付された証拠を含む科学的な表と組み合わせられている。
広範な評価を通じて、SCITABはテーブルベースの事前学習モデルや大規模言語モデルを含む最先端のモデルに重大な課題をもたらすことを示した。
GPT-4を除く全てのモデルは、ランダムな推測以上の性能を達成した。
Chain-of-Thoughtのような一般的なプロンプト技術はSCITABではあまり性能が向上しない。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
私たちのコードとデータはhttps://github.com/XinyuanLu00/SciTab.comで公開されています。
関連論文リスト
- Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning [0.0]
回答の選択肢によって学習された規則性の違いは、モデルの好みを予測し、人間のテストテイク戦略を反映していることが示される。
我々は2つの新しい方法を紹介した: 思考の連鎖(CoT)と素素数CoT(Agnostically Primed CoT)による反実的プロンプト(APriCoT)である。
以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-16T10:34:50Z) - Robust Claim Verification Through Fact Detection [17.29665711917281]
我々の新しいアプローチであるFactDetectは、大規模言語モデル(LLM)を利用して、証拠から簡潔な事実文を生成する。
生成された事実は、クレームとエビデンスと組み合わせられる。
提案手法は,F1スコアにおいて,教師付きクレーム検証モデルにおいて,15%の競合結果を示す。
論文 参考訳(メタデータ) (2024-07-25T20:03:43Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。
我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。
その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文 参考訳(メタデータ) (2022-10-25T05:45:00Z) - Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。
科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。
また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文 参考訳(メタデータ) (2022-03-24T11:29:20Z) - RerrFact: Reduced Evidence Retrieval Representations for Scientific
Claim Verification [4.052777228128475]
本稿では,各予測サブタスクに対して連続的に二項分類を行うモジュラー手法を提案する。
我々は、まず非関連な有理を区別し、与えられた主張に対する支持または反証する有理を識別する2段階のスタンス予測を行う。
実験的に、我々のシステムRerrFactは微調整もシンプルな設計もせず、モデルパラメータのごく一部はリーダーボード上で競争的に公正である。
論文 参考訳(メタデータ) (2022-02-05T21:52:45Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。