論文の概要: Leveraging Multilingual Transformers for Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2101.03207v1
- Date: Fri, 8 Jan 2021 20:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 07:17:38.472872
- Title: Leveraging Multilingual Transformers for Hate Speech Detection
- Title(参考訳): ヘイトスピーチ検出における多言語トランスフォーマーの活用
- Authors: Sayar Ghosh Roy, Ujwal Narayan, Tathagata Raha, Zubair Abid, Vasudeva
Varma
- Abstract要約: 我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
- 参考スコア(独自算出の注目度): 11.306581296760864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting and classifying instances of hate in social media text has been a
problem of interest in Natural Language Processing in the recent years. Our
work leverages state of the art Transformer language models to identify hate
speech in a multilingual setting. Capturing the intent of a post or a comment
on social media involves careful evaluation of the language style, semantic
content and additional pointers such as hashtags and emojis. In this paper, we
look at the problem of identifying whether a Twitter post is hateful and
offensive or not. We further discriminate the detected toxic content into one
of the following three classes: (a) Hate Speech (HATE), (b) Offensive (OFFN)
and (c) Profane (PRFN). With a pre-trained multilingual Transformer-based text
encoder at the base, we are able to successfully identify and classify hate
speech from multiple languages. On the provided testing corpora, we achieve
Macro F1 scores of 90.29, 81.87 and 75.40 for English, German and Hindi
respectively while performing hate speech detection and of 60.70, 53.28 and
49.74 during fine-grained classification. In our experiments, we show the
efficacy of Perspective API features for hate speech classification and the
effects of exploiting a multilingual training scheme. A feature selection study
is provided to illustrate impacts of specific features upon the architecture's
classification head.
- Abstract(参考訳): ソーシャルメディアテキストにおける憎悪の事例の検出と分類は,近年,自然言語処理への関心が高まっている。
我々の研究は、多言語環境でのヘイトスピーチを識別するために、アートトランスフォーマー言語モデルの状態を活用する。
投稿やコメントの意図をソーシャルメディアで捉えるには、言語スタイル、意味コンテンツ、ハッシュタグや絵文字などの追加のポインタを慎重に評価する必要がある。
本稿では、Twitterの投稿が憎悪であり、攻撃的であるか否かを判断する問題を考察する。
さらに, 検出された有害成分を, (a) Hate Speech (HATE), (b) Offensive (OFFN) および (c) Profane (PRFN) の3種類に分類した。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
提案したテストコーパスでは,英語,ドイツ語,ヒンディー語のマクロF1スコアが90.29,81.87,75.40,ヘイトスピーチ検出が60.70,53.28,49.74であった。
本研究では,ヘイトスピーチ分類におけるパースペクティブAPIの有効性と多言語学習手法の活用効果を示す。
特徴選択研究は、特定の特徴がアーキテクチャの分類ヘッドに与える影響を説明するために提供される。
関連論文リスト
- Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。