論文の概要: CFEVER: A Chinese Fact Extraction and VERification Dataset
- arxiv url: http://arxiv.org/abs/2402.13025v1
- Date: Tue, 20 Feb 2024 14:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:52:21.728277
- Title: CFEVER: A Chinese Fact Extraction and VERification Dataset
- Title(参考訳): CFEVER:中国のファクト抽出と検証データセット
- Authors: Ying-Jia Lin, Chun-Yi Lin, Chia-Jen Yeh, Yi-Ting Li, Yun-Yu Hu,
Chih-Hao Hsu, Mei-Feng Lee, Hung-Yu Kao
- Abstract要約: CFEVERは、中国のウィキペディアのコンテンツに基づいて、30,012件のクレームを手作業で作成する。
ラベル付きデータセットは、Fleissのカッパ値0.7934を5方向のアノテータ間契約で保持する。
- 参考スコア(独自算出の注目度): 11.391671611853992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CFEVER, a Chinese dataset designed for Fact Extraction and
VERification. CFEVER comprises 30,012 manually created claims based on content
in Chinese Wikipedia. Each claim in CFEVER is labeled as "Supports", "Refutes",
or "Not Enough Info" to depict its degree of factualness. Similar to the FEVER
dataset, claims in the "Supports" and "Refutes" categories are also annotated
with corresponding evidence sentences sourced from single or multiple pages in
Chinese Wikipedia. Our labeled dataset holds a Fleiss' kappa value of 0.7934
for five-way inter-annotator agreement. In addition, through the experiments
with the state-of-the-art approaches developed on the FEVER dataset and a
simple baseline for CFEVER, we demonstrate that our dataset is a new rigorous
benchmark for factual extraction and verification, which can be further used
for developing automated systems to alleviate human fact-checking efforts.
CFEVER is available at https://ikmlab.github.io/CFEVER.
- Abstract(参考訳): CFEVERは、Fact extract and VERificationのために設計された中国語のデータセットである。
CFEVERは、中国のウィキペディアのコンテンツに基づく30,012件の請求書で構成されている。
CFEVERの各クレームは、その事実性の程度を記述するために、"Supports"、"Refutes"、"Not Enough Info"とラベル付けされている。
FEVERデータセットと同様に、"Supports" と "Refutes" カテゴリのクレームにも、中国語ウィキペディアの1ページまたは複数のページから得られた証拠文が注釈付けされている。
ラベル付きデータセットはFleissのカッパ値0.7934を5方向のアノテータ間契約で保持する。
さらに、フィーバーデータセットとcfeverのシンプルなベースラインで開発された最先端のアプローチによる実験を通じて、我々のデータセットは、事実抽出と検証のための新しい厳密なベンチマークであり、人間の事実チェック作業を緩和するための自動化システムの開発にさらに利用できることを実証する。
CFEVERはhttps://ikmlab.github.io/CFEVERで入手できる。
関連論文リスト
- Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - FactGenius: Combining Zero-Shot Prompting and Fuzzy Relation Mining to Improve Fact Verification with Knowledge Graphs [0.0]
FactGeniusは,大規模言語モデルのゼロショットプロンプトと知識グラフ上のファジィテキストマッチングを組み合わせることで,ファクトチェックを強化する新しい手法である。
事実検証のベンチマークデータセットであるFactKG上でのFactGeniusの評価は、既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-03T13:24:37Z) - Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking [55.75590135151682]
CHEFは、10万件の現実世界のクレームに関する最初のChenese EvidenceベースのFact-checkingデータセットである。
このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから取得した注釈付きの証拠を提供する。
論文 参考訳(メタデータ) (2022-06-06T09:11:03Z) - CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文 参考訳(メタデータ) (2022-01-26T18:48:42Z) - FEVEROUS: Fact Extraction and VERification Over Unstructured and
Structured information [21.644199631998482]
我々は、87,026の検証済みクレームからなる新しいデータセットとベンチマーク、Fact extract and VERification Over Unstructured and Structured Information (FEVEROUS)を導入する。
それぞれのクレームには、ウィキペディアの表の文やセルの形での証拠と、この証拠が評決に達するのに十分な情報を提供していないかどうかを示すラベルが添付されている。
本研究は, 請求書の正しい証拠と18%の判定の両方を予測できる, テキストや表に対する請求を検証するためのベースラインを開発する。
論文 参考訳(メタデータ) (2021-06-10T12:47:36Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。