論文の概要: Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection
- arxiv url: http://arxiv.org/abs/2403.14037v1
- Date: Wed, 20 Mar 2024 23:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 17:49:40.557694
- Title: Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection
- Title(参考訳): Ax-to-Grind Urdu:Urduフェイクニュース検出のためのベンチマークデータセット
- Authors: Sheetal Harris, Jinshuo Liu, Hassan Jalil Hadi, Yue Cao,
- Abstract要約: Ax-to-Grind Urduは、Urduで初めて公開された偽ニュースと実ニュースのデータセットである。
パキスタンとインドの新聞やニュースチャンネルから15のドメインで10,083件の偽ニュースと本物のニュースを流している。
我々は,mBERT,XLNet,XLM RoBERTaのアンサンブルモデルを用いて,データセットのベンチマークを行った。
- 参考スコア(独自算出の注目度): 7.533158533458647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misinformation can seriously impact society, affecting anything from public opinion to institutional confidence and the political horizon of a state. Fake News (FN) proliferation on online websites and Online Social Networks (OSNs) has increased profusely. Various fact-checking websites include news in English and barely provide information about FN in regional languages. Thus the Urdu FN purveyors cannot be discerned using factchecking portals. SOTA approaches for Fake News Detection (FND) count upon appropriately labelled and large datasets. FND in regional and resource-constrained languages lags due to the lack of limited-sized datasets and legitimate lexical resources. The previous datasets for Urdu FND are limited-sized, domain-restricted, publicly unavailable and not manually verified where the news is translated from English into Urdu. In this paper, we curate and contribute the first largest publicly available dataset for Urdu FND, Ax-to-Grind Urdu, to bridge the identified gaps and limitations of existing Urdu datasets in the literature. It constitutes 10,083 fake and real news on fifteen domains collected from leading and authentic Urdu newspapers and news channel websites in Pakistan and India. FN for the Ax-to-Grind dataset is collected from websites and crowdsourcing. The dataset contains news items in Urdu from the year 2017 to the year 2023. Expert journalists annotated the dataset. We benchmark the dataset with an ensemble model of mBERT,XLNet, and XLM RoBERTa. The selected models are originally trained on multilingual large corpora. The results of the proposed model are based on performance metrics, F1-score, accuracy, precision, recall and MCC value.
- Abstract(参考訳): 誤報は社会に深刻な影響を与え、世論から機関的な信任、国家の政治的地平に影響を及ぼす。
オンラインウェブサイトでのフェイクニュース(FN)の拡散とオンラインソーシャルネットワーク(OSN)は急速に増加している。
様々なファクトチェックのウェブサイトには、英語のニュースが含まれており、地域言語におけるFNに関する情報はほとんど提供されていない。
したがって、Urdu FNのPurveyorsはファクトチェックポータルでは識別できない。
フェイクニュース検出(FND)のためのSOTAアプローチは、適切にラベル付けされた大きなデータセットに基づいてカウントされる。
FNDは、限られたサイズのデータセットと正当な語彙資源が欠如しているため、地域および資源に制約のある言語で遅れている。
以前のUrdu FNDのデータセットは、制限されたサイズ、ドメイン制限付き、公開されていない。
本稿では,Urdu FND(Ax-to-Grind Urdu)の最初の公開データセットをキュレートし,コントリビューションし,既存のUrduデータセットのギャップと限界を橋渡しする。
パキスタンとインドの新聞やニュースチャンネルから収集された15のドメインで10,083件の偽ニュースと実ニュースで構成されている。
Ax-to-GrindデータセットのFNはWebサイトやクラウドソーシングから収集される。
データセットには、2017年から2023年までのウルドゥー語でニュースアイテムが含まれている。
専門家ジャーナリストはデータセットに注釈を付けました。
我々は,mBERT,XLNet,XLM RoBERTaのアンサンブルモデルを用いて,データセットのベンチマークを行った。
選択されたモデルは、もともとは多言語の大きなコーパスで訓練されている。
提案モデルの結果は,性能指標,F1スコア,精度,精度,リコール,MCC値に基づく。
関連論文リスト
- MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking [55.75590135151682]
CHEFは、10万件の現実世界のクレームに関する最初のChenese EvidenceベースのFact-checkingデータセットである。
このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから取得した注釈付きの証拠を提供する。
論文 参考訳(メタデータ) (2022-06-06T09:11:03Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - No Rumours Please! A Multi-Indic-Lingual Approach for COVID Fake-Tweet
Detection [4.411285005377513]
我々は、英語以外の複数のインデックス言語に対して、ツイートなどのソーシャルメディアから、早期に新型コロナウイルスに関する偽ニュースを検出するアプローチを提案する。
複数のIndic言語へのアプローチを拡大するために、ヒンディー語とベンガル語で生成されたデータセットを微調整したmBERTベースのモデルを使います。
我々の手法は89%の偽ツイート検出でFスコアに達し、その結果がSOTA(State-of-the-art)の結果に取って代わる。
論文 参考訳(メタデータ) (2020-10-14T09:37:51Z) - Efficient Urdu Caption Generation using Attention based LSTM [0.0]
ウルドゥー語はパキスタンの国語であり、パキスタン・インド亜大陸地域で話され、理解されている。
我々は、ウルドゥー語に特化したシーケンスモデリング技術を用いて、注意に基づくディープラーニングモデルを開発する。
提案手法をこのデータセット上で評価し,ウルドゥー語のBLEUスコア0.83を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-08-02T17:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。