論文の概要: Improving Automatic Hate Speech Detection with Multiword Expression
Features
- arxiv url: http://arxiv.org/abs/2106.00237v1
- Date: Tue, 1 Jun 2021 05:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:26:14.897151
- Title: Improving Automatic Hate Speech Detection with Multiword Expression
Features
- Title(参考訳): 多単語表現機能によるヘイトスピーチ自動検出の改善
- Authors: Nicolas Zampieri, Irina Illina and Dominique Fohr
- Abstract要約: 自動ヘイトスピーチ検出(HSD)のための単語レベルの新しい特徴として,マルチワード表現(MWE)を提案する。
MWEは、慣用的で構成的な意味を持つ単語よりも大きい語彙単位である。
実験の結果,MWE特徴を持つHSDシステムはマクロF1の点でベースラインシステムよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 9.22217348720745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of automatically detecting hate speech in social media is gaining
more and more attention. Given the enormous volume of content posted daily,
human monitoring of hate speech is unfeasible. In this work, we propose new
word-level features for automatic hate speech detection (HSD): multiword
expressions (MWEs). MWEs are lexical units greater than a word that have
idiomatic and compositional meanings. We propose to integrate MWE features in a
deep neural network-based HSD framework. Our baseline HSD system relies on
Universal Sentence Encoder (USE). To incorporate MWE features, we create a
three-branch deep neural network: one branch for USE, one for MWE categories,
and one for MWE embeddings. We conduct experiments on two hate speech tweet
corpora with different MWE categories and with two types of MWE embeddings,
word2vec and BERT. Our experiments demonstrate that the proposed HSD system
with MWE features significantly outperforms the baseline system in terms of
macro-F1.
- Abstract(参考訳): ソーシャルメディアでヘイトスピーチを自動的に検出する作業は、ますます注目を集めている。
毎日投稿される大量のコンテンツを考えると、ヘイトスピーチの人間の監視は不可能だ。
本研究では,ヘイトスピーチ自動検出(hsd: multiword expressions, mwes)のための新しい単語レベル機能を提案する。
mwes は慣用的意味と構成的意味を持つ単語よりも大きい語彙単位である。
我々は、深層ニューラルネットワークベースのHSDフレームワークにMWE機能を統合することを提案する。
我々のベースライン HSD システムは Universal Sentence Encoder (USE) に依存している。
MWE機能を組み込むために、3分岐のディープニューラルネットワーク(USE用の1つのブランチ、MWEカテゴリ用の1つ、MWE埋め込みのための1つ)を作成します。
我々は、異なるMWEカテゴリと2種類のMWE埋め込み、 word2vec と BERT を用いた2種類のヘイトスピーチツイートコーパスの実験を行った。
実験の結果,MWE特徴を持つHSDシステムはマクロF1の点でベースラインシステムよりも有意に優れていた。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual
Semantic Matching [62.53203836521321]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - MasonPerplexity at Multimodal Hate Speech Event Detection 2024: Hate
Speech and Target Detection Using Transformer Ensembles [6.2696956160552455]
本稿では,EACL 2024のケース2024におけるマルチモーダル・ヘイト・スピーチ・イベント検出における共有タスクに対するMasonPerplexityの提出について述べる。
サブタスクAにはXLM-roBERTa-largeモデル、サブタスクBにはXLM-roBERTa-base、BERTweet-large、BERT-baseを組み合わせたアンサンブルアプローチを用いる。
論文 参考訳(メタデータ) (2024-02-03T00:23:36Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文 参考訳(メタデータ) (2021-02-08T20:39:17Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。