論文の概要: To BAN or not to BAN: Bayesian Attention Networks for Reliable Hate
Speech Detection
- arxiv url: http://arxiv.org/abs/2007.05304v7
- Date: Thu, 17 Dec 2020 09:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 22:26:06.491336
- Title: To BAN or not to BAN: Bayesian Attention Networks for Reliable Hate
Speech Detection
- Title(参考訳): 禁止か禁止か - ベイジアンアテンションネットワークによる、信頼できるヘイトスピーチ検出
- Authors: Kristian Miok, Blaz Skrlj, Daniela Zaharie and Marko Robnik-Sikonja
- Abstract要約: ヘイトスピーチは、ユーザ生成コンテンツの管理において重要な問題である。攻撃的コンテンツを削除したり、誤動作を禁止したりするには、コンテンツモデレーターは信頼できるヘイトスピーチ検知器が必要である。
BERTモデルのようなトランスフォーマーアーキテクチャに基づくディープニューラルネットワークは、ヘイトスピーチ検出を含む多くの自然言語分類タスクにおいて優れたパフォーマンスを達成する。
変圧器モデルのアテンション層内におけるモンテカルロのドロップアウトを用いたベイズ法による信頼性推定法を提案する。
- 参考スコア(独自算出の注目度): 3.7768834126209234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech is an important problem in the management of user-generated
content. To remove offensive content or ban misbehaving users, content
moderators need reliable hate speech detectors. Recently, deep neural networks
based on the transformer architecture, such as the (multilingual) BERT model,
achieve superior performance in many natural language classification tasks,
including hate speech detection. So far, these methods have not been able to
quantify their output in terms of reliability. We propose a Bayesian method
using Monte Carlo dropout within the attention layers of the transformer models
to provide well-calibrated reliability estimates. We evaluate and visualize the
results of the proposed approach on hate speech detection problems in several
languages. Additionally, we test if affective dimensions can enhance the
information extracted by the BERT model in hate speech classification. Our
experiments show that Monte Carlo dropout provides a viable mechanism for
reliability estimation in transformer networks. Used within the BERT model, it
ofers state-of-the-art classification performance and can detect less trusted
predictions. Also, it was observed that affective dimensions extracted using
sentic computing methods can provide insights toward interpretation of emotions
involved in hate speech. Our approach not only improves the classification
performance of the state-of-the-art multilingual BERT model but the computed
reliability scores also significantly reduce the workload in an inspection of
ofending cases and reannotation campaigns. The provided visualization helps to
understand the borderline outcomes.
- Abstract(参考訳): ヘイトスピーチはユーザ生成コンテンツの管理において重要な問題である。
悪質なコンテンツを削除するか、悪質なユーザーを禁止するには、コンテンツモデレーターは信頼できるヘイトスピーチ検知器が必要である。
近年、(多言語)bertモデルのようなトランスフォーマーアーキテクチャに基づくディープニューラルネットワークは、ヘイトスピーチ検出を含む多くの自然言語分類タスクにおいて優れた性能を達成している。
これまでのところ、これらの手法は信頼性の観点からアウトプットを定量化できなかった。
本研究では,モンテカルロドロップアウトをトランスフォーマーモデルの注意層内に配置し,信頼性評価を行うベイズ法を提案する。
いくつかの言語におけるヘイトスピーチ検出問題に対する提案手法の結果を評価し,可視化する。
さらに,ヘイトスピーチ分類において,BERTモデルによって抽出された情報を感情次元で拡張できるかどうかを検証した。
実験の結果,モンテカルロドロップアウトはトランスフォーマネットワークの信頼性評価に有効なメカニズムであることがわかった。
BERTモデルでの使用により、最先端の分類性能が向上し、信頼性の低い予測を検出できる。
また,センティック・コンピューティング手法を用いて抽出した感情次元は,ヘイトスピーチに関わる感情の解釈に対する洞察を与えることができた。
提案手法は,最先端の多言語BERTモデルの分類性能を向上するだけでなく,計算された信頼性スコアも,検査や再注釈キャンペーンにおける作業負荷を大幅に削減する。
提供された視覚化は、境界線の結果を理解するのに役立つ。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Combating high variance in Data-Scarce Implicit Hate Speech
Classification [0.0]
我々は,最先端の性能を実現する新しいRoBERTaモデルを開発した。
本稿では,様々な最適化手法と正規化手法を探求し,最先端性能を実現するRoBERTaベースの新しいモデルを開発する。
論文 参考訳(メタデータ) (2022-08-29T13:45:21Z) - HateCheckHIn: Evaluating Hindi Hate Speech Detection Models [6.52974752091861]
マルチリンガルヘイトは 自動検出の大きな課題です
評価のための機能セットを紹介する。
Hindiをベース言語として考えると、各機能のテストケースを作成します。
論文 参考訳(メタデータ) (2022-04-30T19:09:09Z) - APEACH: Attacking Pejorative Expressions with Analysis on
Crowd-Generated Hate Speech Evaluation Datasets [4.034948808542701]
APEACHは、特定されていないユーザによって生成されるヘイトスピーチの収集を可能にする方法である。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,ヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
論文 参考訳(メタデータ) (2022-02-25T02:04:38Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。