論文の概要: ViWikiFC: Fact-Checking for Vietnamese Wikipedia-Based Textual Knowledge Source
- arxiv url: http://arxiv.org/abs/2405.07615v1
- Date: Mon, 13 May 2024 10:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:05:08.647530
- Title: ViWikiFC: Fact-Checking for Vietnamese Wikipedia-Based Textual Knowledge Source
- Title(参考訳): ViWikiFC:ベトナム語ウィキペディアベースのテキスト知識ソースのためのFact-Checking
- Authors: Hung Tuan Le, Long Truong To, Manh Trong Nguyen, Kiet Van Nguyen,
- Abstract要約: ViWikiFCはベトナム語ウィキペディアのFact Checkingのための最初の手動注釈付きオープンドメインコーパスである。
我々は、新しい依存率、新しいn-gramレート、新しい単語レートから、多くの言語的側面からコーパスを分析する。
BM25とInfoXLM(ラージ)は2つのタスクで最高の結果を達成し、BM25は88.30%のサポーター、86.93%のREFUTES、56.67%のエビデンス検索タスクを達成した。
- 参考スコア(独自算出の注目度): 0.964547614383472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fact-checking is essential due to the explosion of misinformation in the media ecosystem. Although false information exists in every language and country, most research to solve the problem mainly concentrated on huge communities like English and Chinese. Low-resource languages like Vietnamese are necessary to explore corpora and models for fact verification. To bridge this gap, we construct ViWikiFC, the first manual annotated open-domain corpus for Vietnamese Wikipedia Fact Checking more than 20K claims generated by converting evidence sentences extracted from Wikipedia articles. We analyze our corpus through many linguistic aspects, from the new dependency rate, the new n-gram rate, and the new word rate. We conducted various experiments for Vietnamese fact-checking, including evidence retrieval and verdict prediction. BM25 and InfoXLM (Large) achieved the best results in two tasks, with BM25 achieving an accuracy of 88.30% for SUPPORTS, 86.93% for REFUTES, and only 56.67% for the NEI label in the evidence retrieval task, InfoXLM (Large) achieved an F1 score of 86.51%. Furthermore, we also conducted a pipeline approach, which only achieved a strict accuracy of 67.00% when using InfoXLM (Large) and BM25. These results demonstrate that our dataset is challenging for the Vietnamese language model in fact-checking tasks.
- Abstract(参考訳): ファクトチェックは、メディアエコシステムにおける誤報の爆発のために不可欠である。
偽情報はあらゆる言語や国に存在しているが、この問題を解決するためのほとんどの研究は、主に英語や中国語のような巨大なコミュニティに集中している。
ベトナム語のような低リソース言語は、事実検証のためのコーパスやモデルを探究する必要がある。
このギャップを埋めるために、ベトナム語ウィキペディアファクトのための最初の手動注釈付きオープンドメインコーパスであるViWikiFCを構築し、ウィキペディアの記事から抽出されたエビデンス文を変換して20万件以上のクレームを検証した。
我々は、新しい依存率、新しいn-gramレート、新しい単語レートから、多くの言語的側面からコーパスを分析する。
ベトナムのファクトチェックについて,エビデンス検索や検証予測など,様々な実験を行った。
BM25とInfoXLM(ラージ)は2つのタスクで最高の成績を収め、BM25は88.30%、REFUTESは86.93%、NEIラベルは56.67%、InfoXLM(ラージ)は86.51%のスコアを得た。
さらに我々は,InfoXLM (Large) とBM25を用いた場合,67.00%の厳密な精度しか達成できなかったパイプラインアプローチも実施した。
これらの結果から,ベトナム語モデルのファクトチェック作業では,データセットが困難であることが示唆された。
関連論文リスト
- VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media
Text [1.1842520528140819]
ベトナムの語彙正規化タスクのために開発された最初のコーパスであるベトナム語語彙正規化(ViLexNorm)を紹介する。
このコーパスは、ベトナムで最も人気のあるソーシャルメディアプラットフォームに関する公のコメントから引用された、人間の注釈によって丁寧に注釈付けされた1万件以上の文で構成されている。
論文 参考訳(メタデータ) (2024-01-29T18:41:39Z) - DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in
Indo-European Languages [68.66827612799577]
ディフルエンシ補正(Disfluency correction, DC)とは、話し言葉からフィラー、繰り返し、訂正などの不適切な要素を取り除き、読みやすく解釈可能なテキストを作成する過程である。
Indo-Europeanの4つの重要な言語(英語、ヒンディー語、ドイツ語、フランス語)を網羅した、高品質な人間の注釈付きDCコーパスを提示する。
最新の機械翻訳(MT)システムと併用した場合,DCはBLEUスコアを平均5.65ポイント増加させることを示す。
論文 参考訳(メタデータ) (2023-10-25T16:32:02Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking [55.75590135151682]
CHEFは、10万件の現実世界のクレームに関する最初のChenese EvidenceベースのFact-checkingデータセットである。
このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから取得した注釈付きの証拠を提供する。
論文 参考訳(メタデータ) (2022-06-06T09:11:03Z) - Fact Checking with Insufficient Evidence [52.879658637466605]
本稿では,新しいタスクを導入し,それを3つの主要な貢献で進めることで,情報事実チェックモデルがいかに十分と考えるかを考察する。
異なるトランスフォーマーアーキテクチャを持つ3つのトレーニングモデルに基づいて, FC の残余の証拠を考慮した場合の同定を行う。
第2に、省略された証拠がFCにとって重要であるかどうかをアノテータに問うことにより、省略された証拠を持つFCに対して、新たな診断データセットであるSufficientFactsが生成される。
論文 参考訳(メタデータ) (2022-04-05T06:12:42Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。