論文の概要: HABERTOR: An Efficient and Effective Deep Hatespeech Detector
- arxiv url: http://arxiv.org/abs/2010.08865v1
- Date: Sat, 17 Oct 2020 21:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 09:03:49.964986
- Title: HABERTOR: An Efficient and Effective Deep Hatespeech Detector
- Title(参考訳): HABERTOR:効率的かつ効果的な深層音声検出装置
- Authors: Thanh Tran, Yifan Hu, Changwei Hu, Kevin Yen, Fei Tan, Kyumin Lee,
Serim Park
- Abstract要約: ユーザ生成コンテンツ中のヘイトスピーチを検出するためのHABERTORモデルを提案する。
HABERTORは15の最先端のヘイトスピーチ検出方法よりも優れていることを示す。
我々の一般化可能性分析は、HABERTORが他の目に見えないヘイトスピーチデータセットにうまく転送することを示している。
- 参考スコア(独自算出の注目度): 14.315255338162283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our HABERTOR model for detecting hatespeech in large scale
user-generated content. Inspired by the recent success of the BERT model, we
propose several modifications to BERT to enhance the performance on the
downstream hatespeech classification task. HABERTOR inherits BERT's
architecture, but is different in four aspects: (i) it generates its own
vocabularies and is pre-trained from the scratch using the largest scale
hatespeech dataset; (ii) it consists of Quaternion-based factorized components,
resulting in a much smaller number of parameters, faster training and
inferencing, as well as less memory usage; (iii) it uses our proposed
multi-source ensemble heads with a pooling layer for separate input sources, to
further enhance its effectiveness; and (iv) it uses a regularized adversarial
training with our proposed fine-grained and adaptive noise magnitude to enhance
its robustness. Through experiments on the large-scale real-world hatespeech
dataset with 1.4M annotated comments, we show that HABERTOR works better than
15 state-of-the-art hatespeech detection methods, including fine-tuning
Language Models. In particular, comparing with BERT, our HABERTOR is 4~5 times
faster in the training/inferencing phase, uses less than 1/3 of the memory, and
has better performance, even though we pre-train it by using less than 1% of
the number of words. Our generalizability analysis shows that HABERTOR
transfers well to other unseen hatespeech datasets and is a more efficient and
effective alternative to BERT for the hatespeech classification.
- Abstract(参考訳): 本稿では,habertorモデルを用いてhatspeechの検出を行う。
近年のbertモデルの成功に触発されて,下流のhatspeech分類タスクの性能向上のために,bertのいくつかの修正を提案する。
HABERTORはBERTのアーキテクチャを継承するが、4つの面で異なる。
(i)独自の語彙を生成し、最大のハトスペッチデータセットを使用してスクラッチから事前学習する。
(ii)四元数に基づく因子化成分で構成されており、結果としてパラメータがはるかに少なくなり、より高速なトレーニングと参照、メモリ使用量が少なくなる。
(iii)提案するマルチソースアンサンブルヘッドと、別々の入力源のためのプール層を用いて、その効果をさらに高める。
(iv)本手法では,提案する細粒度と適応性を有する正規化逆訓練を用いて,その頑健性を高める。
1.4mの注釈付きコメントを含む大規模実世界のhatspeechデータセットの実験を通じて、habertorは15の最先端のhatspeech検出手法よりも優れた働きをすることを示した。
特に、bertと比較すると、私たちのhabertorはトレーニング/推論フェーズで4~5倍高速で、メモリの1/3未満を使用し、単語数の1%未満で事前トレーニングしてもパフォーマンスが向上しています。
我々の一般化可能性分析は、habertorが他の目に見えないhatspeechデータセットにうまく移行していることを示しており、hatspeech分類においてbertよりも効率的で効果的な代替手段である。
関連論文リスト
- Cross-Lingual Query-by-Example Spoken Term Detection: A Transformer-Based Approach [0.0]
本稿では,画像処理技術とトランスフォーマーアーキテクチャを活用した,言語に依存しない新しいQbE-STDモデルを提案する。
4言語にわたる実験結果は、CNNベースのベースラインよりも大きなパフォーマンス向上(19-54%)を示した。
論文 参考訳(メタデータ) (2024-10-05T09:19:29Z) - BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - BERT-LID: Leveraging BERT to Improve Spoken Language Identification [12.179375898668614]
言語識別とは、音声セグメントによって伝達される言語の同一性を自動的に判定するタスクである。
中・長期間の発話において高い精度で言語識別が達成されているにもかかわらず、短い発話のパフォーマンスはまだまだ満足できない。
本稿では,BERTに基づく言語識別システム(BERT-LID)を提案する。
論文 参考訳(メタデータ) (2022-03-01T10:01:25Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - To BAN or not to BAN: Bayesian Attention Networks for Reliable Hate
Speech Detection [3.7768834126209234]
ヘイトスピーチは、ユーザ生成コンテンツの管理において重要な問題である。攻撃的コンテンツを削除したり、誤動作を禁止したりするには、コンテンツモデレーターは信頼できるヘイトスピーチ検知器が必要である。
BERTモデルのようなトランスフォーマーアーキテクチャに基づくディープニューラルネットワークは、ヘイトスピーチ検出を含む多くの自然言語分類タスクにおいて優れたパフォーマンスを達成する。
変圧器モデルのアテンション層内におけるモンテカルロのドロップアウトを用いたベイズ法による信頼性推定法を提案する。
論文 参考訳(メタデータ) (2020-07-10T11:09:00Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。