論文の概要: CsFEVER and CTKFacts: Czech Datasets for Fact Verification
- arxiv url: http://arxiv.org/abs/2201.11115v1
- Date: Wed, 26 Jan 2022 18:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 13:32:34.560054
- Title: CsFEVER and CTKFacts: Czech Datasets for Fact Verification
- Title(参考訳): CsFEVERとCTKFacts: ファクト検証のためのチェコのデータセット
- Authors: Jan Drchal, Herbert Ullrich, Martin R\'ypar, Hana Vincourov\'a,
V\'aclav Moravec
- Abstract要約: 自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present two Czech datasets aimed for training automated
fact-checking machine learning models. Specifically we deal with the task of
assessment of a textual claim veracity w.r.t. to a (presumably) verified
corpus. The output of the system is the claim classification SUPPORTS or
REFUTES complemented with evidence documents or NEI (Not Enough Info) alone. In
the first place we publish CsFEVER of approximately 112k claims which is an
automatically generated Czech version of the well-known Wikipedia-based FEVER
dataset. We took a hybrid approach of machine translation and language
alignment, where the same method (and tools we provide) can be easily applied
to other languages. The second dataset CTKFacts of 3,097 claims is built on the
corpus of approximately two million Czech News Agency news reports. We present
an extended methodology based on the FEVER approach. Most notably, we describe
a method to automatically generate wider claim contexts (dictionaries) for
non-hyperlinked corpora. The datasets are analyzed for spurious cues, which are
annotation patterns leading to model overfitting. CTKFacts is further examined
for inter-annotator agreement, and a typology of common annotator errors is
extracted. Finally, we provide baseline models for all stages of the
fact-checking pipeline.
- Abstract(参考訳): 本稿では,自動ファクトチェック機械学習モデルのトレーニングを目的とした2つのチェコデータセットを提案する。
具体的には、テキストクレームの妥当性を(おそらく)検証されたコーパスに評価するタスクに対処する。
このシステムの出力は、証拠文書を補完するクレーム分類支援(REFUTES)またはNEI(Not Enough Info)のみである。
まず、有名なwikipediaベースのフィーバーデータセットの自動生成チェコ版である約112kクレームのcsfeverを公開します。
私たちは機械翻訳と言語アライメントのハイブリッドアプローチを採用し、同じ方法(とツール)を他の言語にも簡単に適用できるようにしました。
第2のデータセットである3,097件のクレームのctkfactsは、約200万のチェコの報道機関のコーパスに基づいている。
我々は、フィーバーアプローチに基づく拡張手法を提案する。
特に,非ハイパーリンクコーパスに対して,より広いクレームコンテキスト(辞書)を自動的に生成する手法について述べる。
データセットは、モデルオーバーフィットにつながるアノテーションパターンであるsplious cuesで分析される。
ctkfactsはアノテーション間合意のためにさらに検討され、共通注釈エラーの類型が抽出される。
最後に、ファクトチェックパイプラインの全ステージにベースラインモデルを提供します。
関連論文リスト
- Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking [55.75590135151682]
CHEFは、10万件の現実世界のクレームに関する最初のChenese EvidenceベースのFact-checkingデータセットである。
このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから取得した注釈付きの証拠を提供する。
論文 参考訳(メタデータ) (2022-06-06T09:11:03Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Reading Comprehension in Czech via Machine Translation and Cross-lingual
Transfer [2.8273701718153563]
この研究は、手動で注釈付けされたチェコのトレーニングデータを必要とせずに、チェコ語で読みやすいシステムを構築することに焦点を当てている。
我々はSQuAD 1.1とSQuAD 2.0データセットをチェコ語に自動翻訳し、トレーニングと開発データを作成しました。
その後,複数のBERTおよびXLM-RoBERTaベースラインモデルの訓練と評価を行った。
論文 参考訳(メタデータ) (2020-07-03T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。