論文の概要: Deriving Disinformation Insights from Geolocalized Twitter Callouts
- arxiv url: http://arxiv.org/abs/2108.03067v1
- Date: Fri, 6 Aug 2021 11:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 18:39:23.640788
- Title: Deriving Disinformation Insights from Geolocalized Twitter Callouts
- Title(参考訳): 地域別twitterコールアウトからの偽情報洞察の導出
- Authors: David Tuxworth, Dimosthenis Antypas, Luis Espinosa-Anke, Jose
Camacho-Collados, Alun Preece, David Rogers
- Abstract要約: 本稿では,地理空間分類と埋め込み型言語モデリングの組み合わせを応用して,偽情報に関連するソーシャルメディアデータから洞察を得る2段階の手法を示す。
TwitterデータはBERTを使用してヨーロッパと非ヨーロッパに分類される。
Word2vecは、Eurocentric, non-Eurocentric and global representations of the data for the three target languagesである。
- 参考スコア(独自算出の注目度): 7.951685935253415
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper demonstrates a two-stage method for deriving insights from social
media data relating to disinformation by applying a combination of geospatial
classification and embedding-based language modelling across multiple
languages. In particular, the analysis in centered on Twitter and
disinformation for three European languages: English, French and Spanish.
Firstly, Twitter data is classified into European and non-European sets using
BERT. Secondly, Word2vec is applied to the classified texts resulting in
Eurocentric, non-Eurocentric and global representations of the data for the
three target languages. This comparative analysis demonstrates not only the
efficacy of the classification method but also highlights geographic, temporal
and linguistic differences in the disinformation-related media. Thus, the
contributions of the work are threefold: (i) a novel language-independent
transformer-based geolocation method; (ii) an analytical approach that exploits
lexical specificity and word embeddings to interrogate user-generated content;
and (iii) a dataset of 36 million disinformation related tweets in English,
French and Spanish.
- Abstract(参考訳): 本稿では,複数の言語にまたがる地理空間分類と埋め込み型言語モデリングの組み合わせを応用して,偽情報に関連するソーシャルメディアデータから洞察を得る2段階の手法を示す。
特に分析は、英語、フランス語、スペイン語の3つのヨーロッパの言語について、twitterと偽情報を中心に行われた。
まず、TwitterデータはBERTを使用してヨーロッパと非ヨーロッパに分類される。
第二に、Word2vecは分類されたテキストに適用され、3つのターゲット言語に対するデータのユーロ中心、非ユーロ中心、およびグローバル表現をもたらす。
この比較分析は, 分類法の有効性だけでなく, 地理的, 時間的, 言語的差異を浮き彫りにした。
i)新しい言語非依存のトランスフォーマーベースの位置情報法 (ii) 語彙特異性と単語埋め込みを利用してユーザー生成コンテンツに疑問を呈する分析的アプローチ (iii) 英語、フランス語、スペイン語における3600万の偽情報関連ツイートのデータセット。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Cross-lingual Offensive Language Detection: A Systematic Review of
Datasets, Transfer Approaches and Challenges [10.079109184645478]
本調査は,ソーシャルメディアにおける攻撃的言語検出におけるクロスリンガル・トランスファー・ラーニング手法の体系的,包括的調査である。
我々の研究は、この領域における言語横断シナリオにのみ焦点をあてる最初の全体論的な概要である。
論文 参考訳(メタデータ) (2024-01-17T14:44:27Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。