論文の概要: Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic
Study
- arxiv url: http://arxiv.org/abs/2310.14032v1
- Date: Sat, 21 Oct 2023 15:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 03:59:53.542544
- Title: Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic
Study
- Title(参考訳): 国家支援プロパガンダwebサイトの分析--新しいデータセットと言語研究
- Authors: Freddy Heppell, Kalina Bontcheva, Carolina Scarton
- Abstract要約: 本稿では,国家支援型偽情報共有サイトであるReliable recent News (rn.world) と WarOnFakes (waronfakes.com) について分析する。
コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。
14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
- 参考スコア(独自算出の注目度): 6.011001795749255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper analyses two hitherto unstudied sites sharing state-backed
disinformation, Reliable Recent News (rrn.world) and WarOnFakes
(waronfakes.com), which publish content in Arabic, Chinese, English, French,
German, and Spanish. We describe our content acquisition methodology and
perform cross-site unsupervised topic clustering on the resulting multilingual
dataset. We also perform linguistic and temporal analysis of the web page
translations and topics over time, and investigate articles with false
publication dates. We make publicly available this new dataset of 14,053
articles, annotated with each language version, and additional metadata such as
links and images. The main contribution of this paper for the NLP community is
in the novel dataset which enables studies of disinformation networks, and the
training of NLP tools for disinformation detection.
- Abstract(参考訳): 本稿では、国が支援する偽情報共有サイトであるrrn.worldとwaronfakes(waronfakes.com)を分析し、アラビア語、中国語、英語、フランス語、ドイツ語、スペイン語のコンテンツを公開する。
コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。
また,webページの翻訳や話題の時間的,言語的,時間的分析を行い,虚偽の出版日を持つ記事を調査した。
14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
NLPコミュニティにおける本論文の主な貢献は、偽情報ネットワークの研究を可能にする新しいデータセットと、偽情報検出のためのNLPツールのトレーニングである。
関連論文リスト
- Southern Newswire Corpus: A Large-Scale Dataset of Mid-Century Wire Articles Beyond the Front Page [0.0]
1960-1975年のアメリカ南部新聞から、新しい大規模なワイヤー記事のデータセットを紹介します。
フロントページのコンテンツに焦点を当てた以前の作業とは異なり、このデータセットは新聞全体の記事をキャプチャし、中世紀の南部に関する広範な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-17T14:57:47Z) - Multilingual Attribute Extraction from News Web Pages [44.99833362998488]
本稿では,複数の言語にまたがるニュース記事ページから属性を自動的に抽出するという課題に対処する。
我々は6言語(英語、ドイツ語、ロシア語、中国語、韓国語、アラビア語)にわたる3,172のマークアップニュースページからなる多言語データセットを作成した。
学習済みの最先端モデルであるMarkupLMを微調整し、これらのページからニュース属性を抽出し、ページを英語に翻訳することが抽出品質に与える影響を評価した。
論文 参考訳(メタデータ) (2025-02-04T09:43:40Z) - POLygraph: Polish Fake News Dataset [0.37698262166557467]
本稿では,ポーランドにおける偽ニュース検出のためのユニークなリソースであるPOLygraphデータセットを提案する。
データセットは、11,360対のニュース記事(URLで特定)と対応するラベルを持つ「フェイク・オア・ノット」データセットと、5,082のニュース記事(URLで特定)とコメントするツイートを含む「フェイク・テア・セイ」データセットの2つの部分で構成されている。
このプロジェクトはまた、高度な機械学習技術を使ってデータを分析し、コンテンツの信頼性を判断するソフトウェアツールも開発した。
論文 参考訳(メタデータ) (2024-07-01T15:45:21Z) - EUvsDisinfo: A Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles [4.895830603263421]
この研究は、EUvsDisinfoという、プロクレムリンアウトレットから派生した偽情報の多言語データセットを紹介している。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
論文 参考訳(メタデータ) (2024-06-18T13:43:22Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。