論文の概要: Hate Speech Detection in Roman Urdu
- arxiv url: http://arxiv.org/abs/2108.02830v1
- Date: Thu, 5 Aug 2021 19:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:45:32.198390
- Title: Hate Speech Detection in Roman Urdu
- Title(参考訳): ローマ・ウルドゥー語におけるヘイトスピーチ検出
- Authors: Moin Khan, Khurram Shahzad, Kamran Malik
- Abstract要約: この研究は、ローマ・ウルドゥー語文におけるヘイトスピーチ検出の研究を初めて行った。
われわれは9万件以上のツイートを削除し、手動で解析して5000件のローマ・ウルドゥーのツイートを特定した。
我々は,ガイドライン開発に反復的アプローチを採用し,Hate Speech Roman Urdu 2020 corpus の生成に利用した。
- 参考スコア(独自算出の注目度): 1.6436293069942314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech is a specific type of controversial content that is widely
legislated as a crime that must be identified and blocked. However, due to the
sheer volume and velocity of the Twitter data stream, hate speech detection
cannot be performed manually. To address this issue, several studies have been
conducted for hate speech detection in European languages, whereas little
attention has been paid to low-resource South Asian languages, making the
social media vulnerable for millions of users. In particular, to the best of
our knowledge, no study has been conducted for hate speech detection in Roman
Urdu text, which is widely used in the sub-continent. In this study, we have
scrapped more than 90,000 tweets and manually parsed them to identify 5,000
Roman Urdu tweets. Subsequently, we have employed an iterative approach to
develop guidelines and used them for generating the Hate Speech Roman Urdu 2020
corpus. The tweets in the this corpus are classified at three levels:
Neutral-Hostile, Simple-Complex, and Offensive-Hate speech. As another
contribution, we have used five supervised learning techniques, including a
deep learning technique, to evaluate and compare their effectiveness for hate
speech detection. The results show that Logistic Regression outperformed all
other techniques, including deep learning techniques for the two levels of
classification, by achieved an F1 score of 0.906 for distinguishing between
Neutral-Hostile tweets, and 0.756 for distinguishing between Offensive-Hate
speech tweets.
- Abstract(参考訳): ヘイトスピーチ(Hate speech)は、特定され、ブロックされなければならない犯罪として広く合法化された、論争を巻き起こす特定のタイプのコンテンツである。
しかし、twitterのデータストリームの膨大なボリュームと速度のため、ヘイトスピーチの検出は手動では行えない。
この問題に対処するために、ヨーロッパの言語でヘイトスピーチを検出するための研究がいくつか行われてきたが、低リソースの南アジア言語にはほとんど注意が払われておらず、何百万人ものユーザーにとってソーシャルメディアは脆弱である。
特に我々の知る限りでは、サブコンティネントで広く使われているローマ・ウルドゥ語のテキストにおけるヘイトスピーチ検出の研究は行われていない。
本研究では、9万件以上のツイートを削除し、手動で解析して5000件のローマ・ウルドゥーのツイートを特定した。
その後,ガイドライン開発に反復的アプローチを採用し,Hate Speech Roman Urdu 2020 corpus の生成に利用した。
このコーパスのツイートは、ニュートラル・ホスティル、シンプル・コンプレックス、攻撃的ヘイトスピーチの3つのレベルに分類される。
また,ディープラーニング技術を含む5つの教師あり学習手法を用いて,ヘイトスピーチ検出の有効性を評価し,比較した。
その結果,2段階の分類のための深層学習技術を含む他の手法よりも,ニュートラル・ホスタイルのツイートを区別するF1スコアが0.906,オフエンジブ・ヘイト音声のツイートを区別する0.756を達成できた。
関連論文リスト
- Hate Speech Detection and Classification in Amharic Text with Deep Learning [4.834669033093363]
我々は、テキストをヘイトスピーチの4つのカテゴリに分類し、検出できるアムハラヘイトスピーチデータとSBi-LSTMディープラーニングモデルを開発した。
われわれは5k Amharicのソーシャルメディア投稿とコメントデータを4つのカテゴリに分類した。
このモデルは94.8F1スコアのパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-07T15:46:45Z) - Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Assessing the impact of contextual information in hate speech detection [0.48369513656026514]
我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-02T09:04:47Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Hate versus Politics: Detection of Hate against Policy makers in Italian
tweets [0.6289422225292998]
本稿では,イタリアにおけるTwitterの政策立案者に対するヘイトスピーチの分類問題について論じる。
1264ツイートを収集,注釈し,アノテータ間の不一致事例を調査し,ドメイン内およびドメイン間ヘイトスピーチ分類を行った。
我々は、ROC AUC 0.83の性能を達成し、最も予測可能な属性を分析し、また、反政治家と反移民ドメインで異なる言語特徴を見出した。
論文 参考訳(メタデータ) (2021-07-12T12:24:45Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。