論文の概要: Improving Automatic Hate Speech Detection with Multiword Expression
Features
- arxiv url: http://arxiv.org/abs/2106.00237v1
- Date: Tue, 1 Jun 2021 05:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:26:14.897151
- Title: Improving Automatic Hate Speech Detection with Multiword Expression
Features
- Title(参考訳): 多単語表現機能によるヘイトスピーチ自動検出の改善
- Authors: Nicolas Zampieri, Irina Illina and Dominique Fohr
- Abstract要約: 自動ヘイトスピーチ検出(HSD)のための単語レベルの新しい特徴として,マルチワード表現(MWE)を提案する。
MWEは、慣用的で構成的な意味を持つ単語よりも大きい語彙単位である。
実験の結果,MWE特徴を持つHSDシステムはマクロF1の点でベースラインシステムよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 9.22217348720745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of automatically detecting hate speech in social media is gaining
more and more attention. Given the enormous volume of content posted daily,
human monitoring of hate speech is unfeasible. In this work, we propose new
word-level features for automatic hate speech detection (HSD): multiword
expressions (MWEs). MWEs are lexical units greater than a word that have
idiomatic and compositional meanings. We propose to integrate MWE features in a
deep neural network-based HSD framework. Our baseline HSD system relies on
Universal Sentence Encoder (USE). To incorporate MWE features, we create a
three-branch deep neural network: one branch for USE, one for MWE categories,
and one for MWE embeddings. We conduct experiments on two hate speech tweet
corpora with different MWE categories and with two types of MWE embeddings,
word2vec and BERT. Our experiments demonstrate that the proposed HSD system
with MWE features significantly outperforms the baseline system in terms of
macro-F1.
- Abstract(参考訳): ソーシャルメディアでヘイトスピーチを自動的に検出する作業は、ますます注目を集めている。
毎日投稿される大量のコンテンツを考えると、ヘイトスピーチの人間の監視は不可能だ。
本研究では,ヘイトスピーチ自動検出(hsd: multiword expressions, mwes)のための新しい単語レベル機能を提案する。
mwes は慣用的意味と構成的意味を持つ単語よりも大きい語彙単位である。
我々は、深層ニューラルネットワークベースのHSDフレームワークにMWE機能を統合することを提案する。
我々のベースライン HSD システムは Universal Sentence Encoder (USE) に依存している。
MWE機能を組み込むために、3分岐のディープニューラルネットワーク(USE用の1つのブランチ、MWEカテゴリ用の1つ、MWE埋め込みのための1つ)を作成します。
我々は、異なるMWEカテゴリと2種類のMWE埋め込み、 word2vec と BERT を用いた2種類のヘイトスピーチツイートコーパスの実験を行った。
実験の結果,MWE特徴を持つHSDシステムはマクロF1の点でベースラインシステムよりも有意に優れていた。
関連論文リスト
- A Unified Multi-Task Learning Architecture for Hate Detection Leveraging User-Based Information [23.017068553977982]
ヘイトスピーチ、攻撃的言語、攻撃性、人種差別、性差別、その他の虐待的言語は、ソーシャルメディアでよく見られる現象である。
ヘイトコンテンツを大規模にフィルタリングする人工知能(AI)ベースの介入が必要である。
本稿では,ユーザ内およびユーザ間情報を活用することで,英語のヘイトスピーチ識別を改善するユニークなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:37:11Z) - Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文 参考訳(メタデータ) (2021-02-08T20:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。