論文の概要: EUvsDisinfo: a Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles
- arxiv url: http://arxiv.org/abs/2406.12614v3
- Date: Mon, 19 Aug 2024 10:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 13:17:05.969408
- Title: EUvsDisinfo: a Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles
- Title(参考訳): EUvsDisinfo:ニュース記事におけるプロクレムリン情報の多言語検出用データセット
- Authors: João A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton,
- Abstract要約: この研究は、EUvsDisinfoという、プロクレムリンアウトレットから派生した偽情報の多言語データセットを紹介している。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
- 参考スコア(独自算出の注目度): 4.895830603263421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces EUvsDisinfo, a multilingual dataset of disinformation articles originating from pro-Kremlin outlets, along with trustworthy articles from credible / less biased sources. It is sourced directly from the debunk articles written by experts leading the EUvsDisinfo project. Our dataset is the largest to-date resource in terms of the overall number of articles and distinct languages. It also provides the largest topical and temporal coverage. Using this dataset, we investigate the dissemination of pro-Kremlin disinformation across different languages, uncovering language-specific patterns targeting certain disinformation topics. We further analyse the evolution of topic distribution over an eight-year period, noting a significant surge in disinformation content before the full-scale invasion of Ukraine in 2022. Lastly, we demonstrate the dataset's applicability in training models to effectively distinguish between disinformation and trustworthy content in multilingual settings.
- Abstract(参考訳): この研究は、EUvsDisinfoという、親クレムリンのアウトレットから派生した偽情報の多言語データセットを紹介し、信頼できる/バイアスの少ない情報源からの信頼できる記事を紹介している。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
また、最大の話題や時間的報道も提供している。
本データセットを用いて,異なる言語にまたがるプロクレムリン情報の拡散について検討し,特定の非情報トピックを対象とする言語固有のパターンを明らかにする。
さらに、2022年のウクライナ侵攻以前には、偽情報の内容が顕著に急増していたことを指摘し、8年間の話題分布の進化を分析した。
最後に、トレーニングモデルにおけるデータセットの適用性を示し、多言語設定における偽情報と信頼できるコンテンツを効果的に区別する。
関連論文リスト
- When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Lost in Translation -- Multilingual Misinformation and its Evolution [52.07628580627591]
本稿では,95言語にまたがる25万以上のファクトチェックの分析を通じて,多言語誤報の頻度とダイナミクスについて検討する。
誤報のクレームの大部分は1回だけ事実チェックされているが、21,000件以上のクレームに対応する11.7%は複数回チェックされている。
誤情報拡散のプロキシとしてファクトチェックを用いると、言語境界を越えて繰り返し主張する主張の33%が見つかる。
論文 参考訳(メタデータ) (2023-10-27T12:21:55Z) - Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic
Study [6.011001795749255]
本稿では,国家支援型偽情報共有サイトであるReliable recent News (rn.world) と WarOnFakes (waronfakes.com) について分析する。
コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。
14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
論文 参考訳(メタデータ) (2023-10-21T15:00:27Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。