論文の概要: Factorization of Fact-Checks for Low Resource Indian Languages
- arxiv url: http://arxiv.org/abs/2102.11276v1
- Date: Tue, 23 Feb 2021 16:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 07:13:40.172604
- Title: Factorization of Fact-Checks for Low Resource Indian Languages
- Title(参考訳): 低リソースインドの言語におけるファクトチェックのファクタリゼーション
- Authors: Shivangi Singhal, Rajiv Ratn Shah, Ponnurangam Kumaraguru
- Abstract要約: FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
- 参考スコア(独自算出の注目度): 44.94080515860928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement in technology and accessibility of internet to each
individual is revolutionizing the real time information. The liberty to express
your thoughts without passing through any credibility check is leading to
dissemination of fake content in the ecosystem. It can have disastrous effects
on both individuals and society as a whole. The amplification of fake news is
becoming rampant in India too. Debunked information often gets republished with
a replacement description, claiming it to depict some different incidence. To
curb such fabricated stories, it is necessary to investigate such deduplicates
and false claims made in public. The majority of studies on automatic
fact-checking and fake news detection is restricted to English only. But for a
country like India where only 10% of the literate population speak English,
role of regional languages in spreading falsity cannot be undermined. In this
paper, we introduce FactDRIL: the first large scale multilingual Fact-checking
Dataset for Regional Indian Languages. We collect an exhaustive dataset across
7 months covering 11 low-resource languages. Our propose dataset consists of
9,058 samples belonging to English, 5,155 samples to Hindi and remaining 8,222
samples are distributed across various regional languages, i.e. Bangla,
Marathi, Malayalam, Telugu, Tamil, Oriya, Assamese, Punjabi, Urdu, Sinhala and
Burmese. We also present the detailed characterization of three M's
(multi-lingual, multi-media, multi-domain) in the FactDRIL accompanied with the
complete list of other varied attributes making it a unique dataset to study.
Lastly, we present some potential use cases of the dataset. We expect this
dataset will be a valuable resource and serve as a starting point to fight
proliferation of fake news in low resource languages.
- Abstract(参考訳): テクノロジの進歩とインターネットの個人へのアクセシビリティは、リアルタイム情報に革命をもたらしている。
信頼度チェックを通さずに自分の考えを表現できる自由は、エコシステムにおける偽コンテンツの拡散につながる。
それは個人および社会全体に悲惨な効果をもたらすことができます。
インドでも偽ニュースの増幅が急増している。
分断された情報は、しばしば交換説明で再発行され、いくつかの異なる発生率を描写すると主張します。
このような作り話を抑制するためには、そのような重複や虚偽の主張を公に調査する必要がある。
自動事実チェックと偽ニュース検出の研究の大半は英語のみに限られている。
しかし、文人人口の10%が英語を話せないインドのような国では、偽造を広めるための地域言語の役割は損なわれない。
本稿では,インドの地域言語を対象とした,最初の大規模多言語ファクトチェックデータセットであるfactdrilを紹介する。
私たちは、11の低リソース言語をカバーする7ヶ月にわたる完全なデータセットを収集します。
私たちの提案データセットは、英語に属する9,058のサンプル、ヒンディー語への5,155のサンプル、および残りの8,222のサンプルからなる。
Bangla, Marathi, Malayalam, Telugu, Tamil, Oriya, Assamese, Punjabi, Urdu, Sinhala, Burmese。
また,ファクトドリルにおける3つのm(多言語,マルチメディア,マルチドメイン)の詳細な特徴と,他の属性の完全なリストについて述べる。
最後に、データセットの潜在的なユースケースを示す。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
関連論文リスト
- Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection [7.533158533458647]
Ax-to-Grind Urduは、Urduで初めて公開された偽ニュースと実ニュースのデータセットである。
パキスタンとインドの新聞やニュースチャンネルから15のドメインで10,083件の偽ニュースと本物のニュースを流している。
我々は,mBERT,XLNet,XLM RoBERTaのアンサンブルモデルを用いて,データセットのベンチマークを行った。
論文 参考訳(メタデータ) (2024-03-20T23:21:35Z) - Mukhyansh: A Headline Generation Dataset for Indic Languages [4.583536403673757]
Mukhyanshは、インド語の見出し生成に適した、広範囲にわたる多言語データセットである。
ムハーンシュ語は3億3900万以上の記事の見出しから成り、8つの著名なインドの言語にまたがっている。
Mukhyanshは、他のすべてのモデルより優れており、平均ROUGE-Lスコアは8言語すべてで31.43である。
論文 参考訳(メタデータ) (2023-11-29T15:49:24Z) - MalFake: A Multimodal Fake News Identification for Malayalam using
Recurrent Neural Networks and VGG-16 [0.0]
マルチモーダルアプローチはマラヤラムのフェイクニュースの検出においてより正確である。
複数のモダリティで訓練されたモデルは、典型的には1つのモダリティで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-10-27T16:51:29Z) - Lost in Translation -- Multilingual Misinformation and its Evolution [52.07628580627591]
本稿では,95言語にまたがる25万以上のファクトチェックの分析を通じて,多言語誤報の頻度とダイナミクスについて検討する。
誤報のクレームの大部分は1回だけ事実チェックされているが、21,000件以上のクレームに対応する11.7%は複数回チェックされている。
誤情報拡散のプロキシとしてファクトチェックを用いると、言語境界を越えて繰り返し主張する主張の33%が見つかる。
論文 参考訳(メタデータ) (2023-10-27T12:21:55Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - No Rumours Please! A Multi-Indic-Lingual Approach for COVID Fake-Tweet
Detection [4.411285005377513]
我々は、英語以外の複数のインデックス言語に対して、ツイートなどのソーシャルメディアから、早期に新型コロナウイルスに関する偽ニュースを検出するアプローチを提案する。
複数のIndic言語へのアプローチを拡大するために、ヒンディー語とベンガル語で生成されたデータセットを微調整したmBERTベースのモデルを使います。
我々の手法は89%の偽ツイート検出でFスコアに達し、その結果がSOTA(State-of-the-art)の結果に取って代わる。
論文 参考訳(メタデータ) (2020-10-14T09:37:51Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。