論文の概要: EUvsDisinfo: a Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles
- arxiv url: http://arxiv.org/abs/2406.12614v1
- Date: Tue, 18 Jun 2024 13:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:58:07.311635
- Title: EUvsDisinfo: a Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles
- Title(参考訳): EUvsDisinfo:ニュース記事におけるプロクレムリン情報の多言語検出用データセット
- Authors: João A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton,
- Abstract要約: EUvsDisinfoは、親クレムリンのテーマに関連する信頼できる、偽情報の多言語データセットである。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
- 参考スコア(独自算出の注目度): 4.895830603263421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces EUvsDisinfo, a multilingual dataset of trustworthy and disinformation articles related to pro-Kremlin themes. It is sourced directly from the debunk articles written by experts leading the EUvsDisinfo project. Our dataset is the largest to-date resource in terms of the overall number of articles and distinct languages. It also provides the largest topical and temporal coverage. Using this dataset, we investigate the dissemination of pro-Kremlin disinformation across different languages, uncovering language-specific patterns targeting specific disinformation topics. We further analyse the evolution of topic distribution over an eight-year period, noting a significant surge in disinformation content before the full-scale invasion of Ukraine in 2022. Lastly, we demonstrate the dataset's applicability in training models to effectively distinguish between disinformation and trustworthy content in multilingual settings.
- Abstract(参考訳): この研究は、EUvsDisinfoという、親クレムリンのテーマに関連する信頼に値する、偽情報の多言語データセットを紹介している。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
また、最大の話題や時間的報道も提供している。
本データセットを用いて,各言語にまたがるプロクレムリン情報の拡散について検討し,特定の偽情報トピックを対象とする言語固有のパターンを明らかにする。
さらに、2022年のウクライナ侵攻以前には、偽情報の内容が顕著に急増していたことを指摘し、8年間の話題分布の進化を分析した。
最後に、トレーニングモデルにおけるデータセットの適用性を示し、多言語設定における偽情報と信頼できるコンテンツを効果的に区別する。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic
Study [6.011001795749255]
本稿では,国家支援型偽情報共有サイトであるReliable recent News (rn.world) と WarOnFakes (waronfakes.com) について分析する。
コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。
14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
論文 参考訳(メタデータ) (2023-10-21T15:00:27Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。