論文の概要: Emojis as Anchors to Detect Arabic Offensive Language and Hate Speech
- arxiv url: http://arxiv.org/abs/2201.06723v1
- Date: Tue, 18 Jan 2022 03:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 02:33:13.459416
- Title: Emojis as Anchors to Detect Arabic Offensive Language and Hate Speech
- Title(参考訳): アラビア語攻撃言語とヘイトスピーチのアンカーとしての絵文字
- Authors: Hamdy Mubarak, Sabit Hassan, Shammur Absar Chowdhury
- Abstract要約: 攻撃的・憎悪的なツイートを大量に収集する汎用的な言語に依存しない手法を提案する。
絵文字に埋め込まれた言語外情報を利用して、多くの攻撃的なツイートを収集します。
- 参考スコア(独自算出の注目度): 6.1875341699258595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a generic, language-independent method to collect a large
percentage of offensive and hate tweets regardless of their topics or genres.
We harness the extralinguistic information embedded in the emojis to collect a
large number of offensive tweets. We apply the proposed method on Arabic tweets
and compare it with English tweets -- analyzing some cultural differences. We
observed a constant usage of these emojis to represent offensiveness in
throughout different timelines in Twitter. We manually annotate and publicly
release the largest Arabic dataset for offensive, fine-grained hate speech,
vulgar and violence content. Furthermore, we benchmark the dataset for
detecting offense and hate speech using different transformer architectures and
performed in-depth linguistic analysis. We evaluate our models on external
datasets -- a Twitter dataset collected using a completely different method,
and a multi-platform dataset containing comments from Twitter, YouTube and
Facebook, for assessing generalization capability. Competitive results on these
datasets suggest that the data collected using our method captures universal
characteristics of offensive language. Our findings also highlight the common
words used in offensive communications; common targets for hate speech;
specific patterns in violence tweets and pinpoints common classification errors
due to the need to understand the context, consider culture and background and
the presence of sarcasm among others.
- Abstract(参考訳): 話題やジャンルに関係なく、攻撃的かつ憎悪的なツイートを大量に収集する汎用的言語非依存手法を導入する。
絵文字に埋め込まれた言語外情報を利用して、大量の攻撃的ツイートを収集します。
提案手法をアラビア語のつぶやきに適用し、それを英語のつぶやきと比較する。
われわれはこれらの絵文字をTwitterの全タイムラインで攻撃性を表すために常に利用しているのを観察した。
我々は、攻撃的、きめ細かなヘイトスピーチ、粗悪、暴力コンテンツのための最大のアラビア語データセットを手作業で注釈し、公開します。
さらに,異なるトランスフォーマーアーキテクチャを用いた攻撃やヘイトスピーチの検出のためのデータセットのベンチマークを行い,詳細な言語解析を行った。
外部データセット -- 完全に異なる方法で収集されたtwitterデータセットと、twitter、youtube、facebookからのコメントを含むマルチプラットフォームデータセットで、一般化機能を評価します。
これらのデータセットの競合的な結果から,本手法を用いて収集したデータは攻撃言語の普遍的な特徴を捉えることが示唆された。
また,攻撃的コミュニケーションにおける一般的な単語,ヘイトスピーチの共通のターゲット,暴力ツイートの特定のパターン,文脈を理解し,文化や背景を考察し,サルカズムの存在を指摘し,分類ミスを指摘していた。
関連論文リスト
- Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - KOLD: Korean Offensive Language Dataset [11.699797031874233]
韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。
タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T13:58:45Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Automatic Expansion and Retargeting of Arabic Offensive Language
Training [12.111859709582617]
当社は2つの重要な洞察を取り入れている。つまり、Twitter上のリプライがしばしば反対を示唆し、一部のアカウントは特定のターゲットに対して攻撃的であることに固執している。
本手法はアラビア語のツイートに対して13%と79%の相対的なF1尺度が有効であることを示す。
論文 参考訳(メタデータ) (2021-11-18T08:25:09Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Intersectional Bias in Hate Speech and Abusive Language Datasets [0.3149883354098941]
アフリカ系アメリカ人のツイートの3.7倍は虐待的だと評価される傾向があった。
アフリカ系アメリカ人の男性ツイートは、ヘイトフルと評価される確率が最大で77%だった。
本研究はヘイトスピーチと虐待言語のデータセットにおける交差バイアスに関する最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2020-05-12T16:58:48Z) - Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。
我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文 参考訳(メタデータ) (2020-04-05T13:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。