論文の概要: Contextual Hate Speech Detection in Code Mixed Text using Transformer
Based Approaches
- arxiv url: http://arxiv.org/abs/2110.09338v1
- Date: Mon, 18 Oct 2021 14:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-10-19 13:59:46.479275
- Title: Contextual Hate Speech Detection in Code Mixed Text using Transformer
Based Approaches
- Title(参考訳): 変圧器に基づくコード混合テキストにおける文脈ヘイト音声検出
- Authors: Ravindra Nayak and Raviraj Joshi
- Abstract要約: 我々は,Twitterのコード混在テキストにおけるヘイトスピーチ検出の自動化手法を提案する。
通常のアプローチでは、テキストを個別に分析するが、親ツイートの形でコンテンツテキストも活用する。
独立表現を用いたデュアルエンコーダ方式により性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the recent past, social media platforms have helped people in connecting
and communicating to a wider audience. But this has also led to a drastic
increase in cyberbullying. It is essential to detect and curb hate speech to
keep the sanity of social media platforms. Also, code mixed text containing
more than one language is frequently used on these platforms. We, therefore,
propose automated techniques for hate speech detection in code mixed text from
scraped Twitter. We specifically focus on code mixed English-Hindi text and
transformer-based approaches. While regular approaches analyze the text
independently, we also make use of content text in the form of parent tweets.
We try to evaluate the performances of multilingual BERT and Indic-BERT in
single-encoder and dual-encoder settings. The first approach is to concatenate
the target text and context text using a separator token and get a single
representation from the BERT model. The second approach encodes the two texts
independently using a dual BERT encoder and the corresponding representations
are averaged. We show that the dual-encoder approach using independent
representations yields better performance. We also employ simple ensemble
methods to further improve the performance. Using these methods we were able to
achieve the best F1 score of 73.07% on the HASOC 2021 ICHCL code mixed data
set.
- Abstract(参考訳): 過去、ソーシャルメディアプラットフォームは、人々がより広いオーディエンスとつながり、コミュニケーションするのを助けてきた。
しかし、これはまた、サイバーいじめの劇的な増加につながった。
ソーシャルメディアプラットフォームの健全性を維持するためにはヘイトスピーチの検出と抑制が不可欠である。
また、これらのプラットフォームでは複数の言語を含むコード混合テキストが頻繁に使用される。
そこで本稿では,廃Twitterのコード混在テキストにおけるヘイトスピーチ検出の自動化手法を提案する。
具体的には、英語とヒンディー語の混成テキストとトランスフォーマーベースのアプローチに焦点を当てる。
通常のアプローチでは、テキストを個別に分析するが、親ツイートの形でコンテンツテキストも活用する。
我々は,多言語BERTとIndic-BERTの性能を,シングルエンコーダとデュアルエンコーダ設定で評価する。
最初のアプローチは、セパレータトークンを使用してターゲットテキストとコンテキストテキストを結合し、BERTモデルから単一の表現を取得することである。
2つ目のアプローチは、2つのテキストを独立に双対 bert エンコーダを使ってエンコードし、対応する表現を平均化する。
独立表現を用いたデュアルエンコーダ方式により性能が向上することを示す。
また、簡単なアンサンブル法を用いてパフォーマンスをさらに向上する。
これらの手法を用いて,HASOC 2021 ICHCL符号混成データセットにおいて,最高のF1スコアの73.07%を達成できた。
関連論文リスト
- Code-Mixed Text to Speech Synthesis under Low-Resource Constraints [6.544954579068865]
本稿では,eコマースアプリケーション向けに構築されたHindi-English TTSシステムについて述べる。
本稿では,個々の言語におけるモノリンガルデータセットを利用したデータ指向手法を提案する。
純粋なコード混在テストセットでは、コード混在のない単一のスクリプトバイランガルトレーニングが有効であることを示す。
論文 参考訳(メタデータ) (2023-12-02T10:40:38Z) - Augmenting text for spoken language understanding with Large Language
Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文 参考訳(メタデータ) (2023-09-17T22:25:34Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - CMSAOne@Dravidian-CodeMix-FIRE2020: A Meta Embedding and Transformer
model for Code-Mixed Sentiment Analysis on Social Media Text [9.23545668304066]
コードミックス(CM)は、発話や文で複数の言語を使用する頻繁に観察される現象です。
感性分析(SA)はNLPの基本的なステップであり、モノリンガルテキストでよく研究されている。
本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。
論文 参考訳(メタデータ) (2021-01-22T08:48:27Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。