Fugu-MT 論文翻訳(概要): Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic Study

論文の概要: Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic Study

arxiv url: http://arxiv.org/abs/2310.14032v1
Date: Sat, 21 Oct 2023 15:00:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 03:59:53.542544
Title: Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic Study
Title（参考訳）: 国家支援プロパガンダwebサイトの分析--新しいデータセットと言語研究
Authors: Freddy Heppell, Kalina Bontcheva, Carolina Scarton
Abstract要約: 本稿では,国家支援型偽情報共有サイトであるReliable recent News (rn.world) と WarOnFakes (waronfakes.com) について分析する。コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。 14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
参考スコア（独自算出の注目度）: 6.011001795749255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper analyses two hitherto unstudied sites sharing state-backed disinformation, Reliable Recent News (rrn.world) and WarOnFakes (waronfakes.com), which publish content in Arabic, Chinese, English, French, German, and Spanish. We describe our content acquisition methodology and perform cross-site unsupervised topic clustering on the resulting multilingual dataset. We also perform linguistic and temporal analysis of the web page translations and topics over time, and investigate articles with false publication dates. We make publicly available this new dataset of 14,053 articles, annotated with each language version, and additional metadata such as links and images. The main contribution of this paper for the NLP community is in the novel dataset which enables studies of disinformation networks, and the training of NLP tools for disinformation detection.
Abstract（参考訳）: 本稿では、国が支援する偽情報共有サイトであるrrn.worldとwaronfakes(waronfakes.com)を分析し、アラビア語、中国語、英語、フランス語、ドイツ語、スペイン語のコンテンツを公開する。コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。また,webページの翻訳や話題の時間的,言語的,時間的分析を行い,虚偽の出版日を持つ記事を調査した。 14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。 NLPコミュニティにおける本論文の主な貢献は、偽情報ネットワークの研究を可能にする新しいデータセットと、偽情報検出のためのNLPツールのトレーニングである。

関連論文リスト

A Python Tool for Reconstructing Full News Text from GDELT [0.0]
本稿では,新聞記事の全文をほぼゼロのコストで入手するための新しいアプローチを提案する。我々は,グローバルオンラインニュースソースから抽出したn-gramの高頻度更新を提供するGDELT Web News NGrams 3.0データセットに注目した。重なり合うテキストフラグメントを識別し、インテリジェントにマージすることで、これらのn-gramからフルテキストの記事を再構築するPythonコードを提供します。
論文参考訳（メタデータ） (2025-04-22T17:40:42Z)
Southern Newswire Corpus: A Large-Scale Dataset of Mid-Century Wire Articles Beyond the Front Page [0.0]
1960-1975年のアメリカ南部新聞から、新しい大規模なワイヤー記事のデータセットを紹介します。フロントページのコンテンツに焦点を当てた以前の作業とは異なり、このデータセットは新聞全体の記事をキャプチャし、中世紀の南部に関する広範な洞察を提供する。
論文参考訳（メタデータ） (2025-02-17T14:57:47Z)
Multilingual Attribute Extraction from News Web Pages [44.99833362998488]
本稿では,複数の言語にまたがるニュース記事ページから属性を自動的に抽出するという課題に対処する。我々は6言語(英語、ドイツ語、ロシア語、中国語、韓国語、アラビア語)にわたる3,172のマークアップニュースページからなる多言語データセットを作成した。学習済みの最先端モデルであるMarkupLMを微調整し、これらのページからニュース属性を抽出し、ページを英語に翻訳することが抽出品質に与える影響を評価した。
論文参考訳（メタデータ） (2025-02-04T09:43:40Z)
POLygraph: Polish Fake News Dataset [0.37698262166557467]
本稿では,ポーランドにおける偽ニュース検出のためのユニークなリソースであるPOLygraphデータセットを提案する。データセットは、11,360対のニュース記事(URLで特定)と対応するラベルを持つ「フェイク・オア・ノット」データセットと、5,082のニュース記事(URLで特定)とコメントするツイートを含む「フェイク・テア・セイ」データセットの2つの部分で構成されている。このプロジェクトはまた、高度な機械学習技術を使ってデータを分析し、コンテンツの信頼性を判断するソフトウェアツールも開発した。
論文参考訳（メタデータ） (2024-07-01T15:45:21Z)
EUvsDisinfo: A Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles [4.895830603263421]
この研究は、EUvsDisinfoという、プロクレムリンアウトレットから派生した偽情報の多言語データセットを紹介している。 EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
論文参考訳（メタデータ） (2024-06-18T13:43:22Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文参考訳（メタデータ） (2023-09-16T04:34:55Z)
MegaWika: Millions of reports and their sources across 50 diverse languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。 MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文参考訳（メタデータ） (2023-07-13T20:04:02Z)
Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文参考訳（メタデータ） (2023-05-24T08:56:35Z)
evaluating bert and parsbert for analyzing persian advertisement data [0.0]
この論文は、イランで製品やサービスを売買するオンラインマーケットプレイスであるDivarの例を用いている。それは、DivarのWebサイトに掲載される自動車販売広告の割合を予測するためのコンペティションを提示している。このデータセットはペルシア語のテキストデータの豊富なソースを提供するため、著者らは、ペルシア語のテキストを処理するように設計されたPythonライブラリであるHazmライブラリと、2つの最先端言語モデルであるmBERTとParsBERTを使用して分析する。
論文参考訳（メタデータ） (2023-05-03T20:50:05Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
A High-Quality Multilingual Dataset for Structured Documentation Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文参考訳（メタデータ） (2020-06-24T02:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。