論文の概要: Detecting Social Media Manipulation in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2011.05367v1
- Date: Tue, 10 Nov 2020 19:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:37:58.951682
- Title: Detecting Social Media Manipulation in Low-Resource Languages
- Title(参考訳): 低リソース言語におけるソーシャルメディア操作の検出
- Authors: Samar Haider, Luca Luceri, Ashok Deb, Adam Badawy, Nanyun Peng, Emilio
Ferrara
- Abstract要約: 悪意あるアクターは、低リソースのアクターを含む国や言語でコンテンツを共有します。
低リソース言語設定で悪意のあるアクターをどの程度検出できるかについて検討する。
テキスト埋め込みと転送学習を組み合わせることで,我々のフレームワークは,タガログに投稿する悪意のあるユーザを,有望な精度で検出することができる。
- 参考スコア(独自算出の注目度): 29.086752995321724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Social media have been deliberately used for malicious purposes, including
political manipulation and disinformation. Most research focuses on
high-resource languages. However, malicious actors share content across
countries and languages, including low-resource ones. Here, we investigate
whether and to what extent malicious actors can be detected in low-resource
language settings. We discovered that a high number of accounts posting in
Tagalog were suspended as part of Twitter's crackdown on interference
operations after the 2016 US Presidential election. By combining text embedding
and transfer learning, our framework can detect, with promising accuracy,
malicious users posting in Tagalog without any prior knowledge or training on
malicious content in that language. We first learn an embedding model for each
language, namely a high-resource language (English) and a low-resource one
(Tagalog), independently. Then, we learn a mapping between the two latent
spaces to transfer the detection model. We demonstrate that the proposed
approach significantly outperforms state-of-the-art models, including BERT, and
yields marked advantages in settings with very limited training data-the norm
when dealing with detecting malicious activity in online platforms.
- Abstract(参考訳): ソーシャルメディアは政治的操作や偽情報を含む悪意ある目的のために意図的に使われてきた。
ほとんどの研究は高リソース言語に焦点を当てている。
しかし、悪質なアクターは低リソースのアクターを含む国や言語でコンテンツを共有している。
本稿では,低リソース言語設定で悪意あるアクターをどの程度検出できるかを検討する。
2016年アメリカ合衆国大統領選挙後のTwitterによる干渉行為の取り締まりの一環として、タガログに投稿された大量のアカウントが停止されていることが分かった。
テキスト埋め込みと転送学習を組み合わせることで、我々のフレームワークは、有望な精度で、タガログに投稿する悪意のあるユーザーを、その言語の悪意のあるコンテンツに対する事前の知識や訓練なしに検出することができる。
まず,各言語の組込みモデル,すなわち高リソース言語(英語)と低リソース言語(tagalog)をそれぞれ独立に学習する。
次に,2つの潜在空間間のマッピングを学習し,検出モデルを転送する。
提案手法は,BERTを含む最先端モデルよりも大幅に優れており,オンラインプラットフォームにおける悪意ある活動の検出に対処する際の,非常に限られたトレーニングデータを用いた設定において顕著な優位性を示す。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。
低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。
ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文 参考訳(メタデータ) (2020-04-14T13:14:27Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。