論文の概要: Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets
- arxiv url: http://arxiv.org/abs/2112.09986v1
- Date: Sat, 18 Dec 2021 19:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 14:52:15.263291
- Title: Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets
- Title(参考訳): 会話型ツイートにおけるヘイト音声検出のためのレバレッジ変換器
- Authors: Zaki Mustafa Farooqi, Sreyan Ghosh and Rajiv Ratn Shah
- Abstract要約: 本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
- 参考スコア(独自算出の注目度): 36.29939722039909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current era of the internet, where social media platforms are easily
accessible for everyone, people often have to deal with threats, identity
attacks, hate, and bullying due to their association with a cast, creed,
gender, religion, or even acceptance or rejection of a notion. Existing works
in hate speech detection primarily focus on individual comment classification
as a sequence labeling task and often fail to consider the context of the
conversation. The context of a conversation often plays a substantial role when
determining the author's intent and sentiment behind the tweet. This paper
describes the system proposed by team MIDAS-IIITD for HASOC 2021 subtask 2, one
of the first shared tasks focusing on detecting hate speech from Hindi-English
code-mixed conversations on Twitter. We approach this problem using neural
networks, leveraging the transformer's cross-lingual embeddings and further
finetuning them for low-resource hate-speech classification in transliterated
Hindi text. Our best performing system, a hard voting ensemble of Indic-BERT,
XLM-RoBERTa, and Multilingual BERT, achieved a macro F1 score of 0.7253,
placing us first on the overall leaderboard standings.
- Abstract(参考訳): インターネットの現在の時代には、ソーシャルメディアのプラットフォームが誰でも簡単にアクセスできるようになるため、人々は、キャスティング、信条、性別、宗教、あるいは概念の受け入れや拒否などに関連して、脅威、アイデンティティ攻撃、憎悪、いじめに対処しなければならないことが多い。
ヘイトスピーチ検出における既存の作業は、主にシーケンスラベリングタスクとしての個々のコメント分類に焦点を当てており、会話のコンテキストを考慮できないことが多い。
会話の文脈は、ツイートの背後にある著者の意図や感情を決定するときにしばしば重要な役割を果たす。
本稿では,HASOC 2021 subtask 2におけるMIDAS-IIITDチームによる提案システムについて述べる。
ニューラルネットワークを用いてこの問題にアプローチし、トランスフォーマーの言語間埋め込みを活用し、さらにヒンディー語テキストの低リソースヘイト音声分類に微調整する。
我々の最高のパフォーマンスシステム、Indic-BERT、XLM-RoBERTa、Multilingual BERTのハード投票アンサンブルは、マクロF1スコア0.7253を達成し、リーダーボード全体のランキングで第1位となった。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal
Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。
提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-23T12:06:05Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - AlexU-AIC at Arabic Hate Speech 2022: Contrast to Classify [2.9220076568786326]
アラビア・ヘイトスピーチ2022共有タスクワークショップ(OSACT52022)に、関連するアラビア・Twitterデータセットを用いて提出する。
攻撃的なツイートに関しては、サブタスクBは、ツイートがヘイトスピーチであるか否かを検出することに焦点を当てている。
ヘイトスピーチのつぶやきに対して、サブタスクCは6つの異なるクラス間のきめ細かいタイプのヘイトスピーチを検出することに重点を置いている。
論文 参考訳(メタデータ) (2022-07-18T12:33:51Z) - Improved two-stage hate speech classification for twitter based on Deep
Neural Networks [0.0]
ヘイトスピーチ(Hate speech)は、虐待的な言葉の使用を含む、オンラインハラスメントの一種である。
この研究で提案するモデルは、LSTMニューラルネットワークアーキテクチャに基づく既存のアプローチの拡張である。
本研究は,16kツイートの公開コーパスで評価された2段階目の提案手法の性能比較を含む。
論文 参考訳(メタデータ) (2022-06-08T20:57:41Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。