論文の概要: Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic
Study
- arxiv url: http://arxiv.org/abs/2310.14032v1
- Date: Sat, 21 Oct 2023 15:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 03:59:53.542544
- Title: Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic
Study
- Title(参考訳): 国家支援プロパガンダwebサイトの分析--新しいデータセットと言語研究
- Authors: Freddy Heppell, Kalina Bontcheva, Carolina Scarton
- Abstract要約: 本稿では,国家支援型偽情報共有サイトであるReliable recent News (rn.world) と WarOnFakes (waronfakes.com) について分析する。
コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。
14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
- 参考スコア(独自算出の注目度): 6.011001795749255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper analyses two hitherto unstudied sites sharing state-backed
disinformation, Reliable Recent News (rrn.world) and WarOnFakes
(waronfakes.com), which publish content in Arabic, Chinese, English, French,
German, and Spanish. We describe our content acquisition methodology and
perform cross-site unsupervised topic clustering on the resulting multilingual
dataset. We also perform linguistic and temporal analysis of the web page
translations and topics over time, and investigate articles with false
publication dates. We make publicly available this new dataset of 14,053
articles, annotated with each language version, and additional metadata such as
links and images. The main contribution of this paper for the NLP community is
in the novel dataset which enables studies of disinformation networks, and the
training of NLP tools for disinformation detection.
- Abstract(参考訳): 本稿では、国が支援する偽情報共有サイトであるrrn.worldとwaronfakes(waronfakes.com)を分析し、アラビア語、中国語、英語、フランス語、ドイツ語、スペイン語のコンテンツを公開する。
コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。
また,webページの翻訳や話題の時間的,言語的,時間的分析を行い,虚偽の出版日を持つ記事を調査した。
14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
NLPコミュニティにおける本論文の主な貢献は、偽情報ネットワークの研究を可能にする新しいデータセットと、偽情報検出のためのNLPツールのトレーニングである。
関連論文リスト
- POLygraph: Polish Fake News Dataset [0.37698262166557467]
本稿では,ポーランドにおける偽ニュース検出のためのユニークなリソースであるPOLygraphデータセットを提案する。
データセットは、11,360対のニュース記事(URLで特定)と対応するラベルを持つ「フェイク・オア・ノット」データセットと、5,082のニュース記事(URLで特定)とコメントするツイートを含む「フェイク・テア・セイ」データセットの2つの部分で構成されている。
このプロジェクトはまた、高度な機械学習技術を使ってデータを分析し、コンテンツの信頼性を判断するソフトウェアツールも開発した。
論文 参考訳(メタデータ) (2024-07-01T15:45:21Z) - EUvsDisinfo: A Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles [4.895830603263421]
この研究は、EUvsDisinfoという、プロクレムリンアウトレットから派生した偽情報の多言語データセットを紹介している。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
論文 参考訳(メタデータ) (2024-06-18T13:43:22Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - evaluating bert and parsbert for analyzing persian advertisement data [0.0]
この論文は、イランで製品やサービスを売買するオンラインマーケットプレイスであるDivarの例を用いている。
それは、DivarのWebサイトに掲載される自動車販売広告の割合を予測するためのコンペティションを提示している。
このデータセットはペルシア語のテキストデータの豊富なソースを提供するため、著者らは、ペルシア語のテキストを処理するように設計されたPythonライブラリであるHazmライブラリと、2つの最先端言語モデルであるmBERTとParsBERTを使用して分析する。
論文 参考訳(メタデータ) (2023-05-03T20:50:05Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。