論文の概要: Character-level HyperNetworks for Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2111.06336v1
- Date: Thu, 11 Nov 2021 17:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 14:07:07.393484
- Title: Character-level HyperNetworks for Hate Speech Detection
- Title(参考訳): ヘイトスピーチ検出のための文字レベルハイパーネットワーク
- Authors: Tomer Wullach, Amir Adler, Einat Minkov
- Abstract要約: ヘイトスピーチ検出の自動化手法は、通常、最先端のディープラーニング(DL)ベースのテキスト分類器を用いる。
本稿では,ハイトスピーチ検出のためのHyperNetworksを提案する。これは,小規模補助ネットワークによって重みが制御される特殊なDLネットワークのクラスである。
我々は最先端の言語モデルに匹敵する、あるいは優れたパフォーマンスを達成し、事前訓練され、桁数は桁違いに大きい。
- 参考スコア(独自算出の注目度): 3.50640918825436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive spread of hate speech, hateful content targeted at specific
subpopulations, is a problem of critical social importance. Automated methods
for hate speech detection typically employ state-of-the-art deep learning
(DL)-based text classifiers-very large pre-trained neural language models of
over 100 million parameters, adapting these models to the task of hate speech
detection using relevant labeled datasets. Unfortunately, there are only
numerous labeled datasets of limited size that are available for this purpose.
We make several contributions with high potential for advancing this state of
affairs. We present HyperNetworks for hate speech detection, a special class of
DL networks whose weights are regulated by a small-scale auxiliary network.
These architectures operate at character-level, as opposed to word-level, and
are several magnitudes of order smaller compared to the popular DL classifiers.
We further show that training hate detection classifiers using large amounts of
automatically generated examples in a procedure named as it data augmentation
is beneficial in general, yet this practice especially boosts the performance
of the proposed HyperNetworks. In fact, we achieve performance that is
comparable or better than state-of-the-art language models, which are
pre-trained and orders of magnitude larger, using this approach, as evaluated
using five public hate speech datasets.
- Abstract(参考訳): ヘイトスピーチの大規模な拡散、特定のサブ人口をターゲットとするヘイトフルコンテンツは、重要な社会的重要性の問題である。
ヘイトスピーチ検出の自動化方法は、通常、最先端のディープラーニング(DL)ベースのテキスト分類器(1億以上のパラメータからなる非常に大規模なトレーニング済みのニューラルネットワークモデル)を使用し、関連するラベル付きデータセットを使用してヘイトスピーチ検出のタスクにこれらのモデルを適応させる。
残念ながら、この目的のために利用可能な限定サイズのラベル付きデータセットは少なくありません。
我々は、この状況を前進させる可能性の高いいくつかの貢献をしている。
本稿では,小型補助ネットワークによって重み付けが制御される特殊なdlネットワークであるヘイトスピーチ検出のためのハイパーネットワークを提案する。
これらのアーキテクチャは単語レベルとは対照的に文字レベルで動作し、人気のあるdl分類器よりも数桁小さい。
さらに,大量の自動生成例を用いたヘイト検出分類器の訓練は,itデータ拡張法として一般的に有用であるが,提案するハイパーネットワークの性能が向上することを示す。
実際、我々は5つの公開ヘイトスピーチデータセットを用いて評価したこのアプローチを用いて、事前学習され、桁違いに大きい最先端の言語モデルと同等または優れたパフォーマンスを達成する。
関連論文リスト
- Hate Speech Detection in Limited Data Contexts using Synthetic Data
Generation [1.9506923346234724]
本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。
対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。
以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
論文 参考訳(メタデータ) (2023-10-04T15:10:06Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection [21.410160004193916]
畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-03-23T09:31:01Z) - A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文 参考訳(メタデータ) (2021-02-08T20:39:17Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。