論文の概要: Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage
- arxiv url: http://arxiv.org/abs/2212.14727v1
- Date: Tue, 27 Dec 2022 16:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 01:38:29.576946
- Title: Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage
- Title(参考訳): オンラインソーシャルネットワークにおける悪質コンテンツモデレーション対策:単語カモフラージュのシミュレーションと検出
- Authors: \'Alvaro Huertas-Garc\'ia and Alejandro Mart\'in and Javier Huertas
Tato and David Camacho
- Abstract要約: ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
- 参考スコア(独自算出の注目度): 64.78260098263489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content moderation is the process of screening and monitoring user-generated
content online. It plays a crucial role in stopping content resulting from
unacceptable behaviors such as hate speech, harassment, violence against
specific groups, terrorism, racism, xenophobia, homophobia, or misogyny, to
mention some few, in Online Social Platforms. These platforms make use of a
plethora of tools to detect and manage malicious information; however,
malicious actors also improve their skills, developing strategies to surpass
these barriers and continuing to spread misleading information. Twisting and
camouflaging keywords are among the most used techniques to evade platform
content moderation systems. In response to this recent ongoing issue, this
paper presents an innovative approach to address this linguistic trend in
social networks through the simulation of different content evasion techniques
and a multilingual Transformer model for content evasion detection. In this
way, we share with the rest of the scientific community a multilingual public
tool, named "pyleetspeak" to generate/simulate in a customizable way the
phenomenon of content evasion through automatic word camouflage and a
multilingual Named-Entity Recognition (NER) Transformer-based model tuned for
its recognition and detection. The multilingual NER model is evaluated in
different textual scenarios, detecting different types and mixtures of
camouflage techniques, achieving an overall weighted F1 score of 0.8795. This
article contributes significantly to countering malicious information by
developing multilingual tools to simulate and detect new methods of evasion of
content on social networks, making the fight against information disorders more
effective.
- Abstract(参考訳): コンテンツモデレーション(content moderation)は、ユーザーが生成したコンテンツをオンラインでスクリーニングし監視するプロセスである。
ヘイトスピーチ、ハラスメント、特定のグループに対する暴力、テロリズム、人種差別、異性恐怖症、ホモフォビア、またはミソジニーなど、一部のオンラインソーシャルプラットフォームにおいて受け入れられない行動から生じるコンテンツを止める上で重要な役割を担っている。
これらのプラットフォームは、悪意のある情報の検出と管理に多くのツールを使用しているが、悪意のあるアクターはスキルも向上し、これらの障壁を乗り越え、誤解を招く情報を拡散し続ける戦略を開発した。
ツイストとカモフレーションキーワードは、プラットフォームコンテンツのモデレーションシステムを避けるために最もよく使われるテクニックである。
本稿では,現在進行中の課題への対応として,異なるコンテンツ回避手法と多言語トランスフォーマモデルを用いて,ソーシャルネットワークにおけるこの言語傾向に対処するための革新的なアプローチを提案する。
このように、我々は、自動単語カモフラージュによるコンテンツ回避現象をカスタマイズ可能な方法で生成・シミュレートする「pyleetspeak」と、その認識と検出のために調整された多言語名-エンティティ認識(NER)トランスフォーマーベースのモデルを共有する。
多言語NERモデルは、異なるテキストシナリオで評価され、異なるタイプのカモフラージュ技法と混合体を検出し、全体的な重み付きF1スコア0.8795を達成する。
本稿では,ソーシャルネットワーク上でのコンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意のある情報対策に大きく貢献する。
関連論文リスト
- Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - A Study of Slang Representation Methods [3.511369967593153]
我々は,スラング理解に依存した様々な下流タスクに対して,表現学習モデルと知識資源の異なる組み合わせについて検討する。
誤り解析では、語彙外単語、多意味性、分散性、アノテーションの不一致など、スラング表現学習における中核的な課題を識別する。
論文 参考訳(メタデータ) (2022-12-11T21:56:44Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。