論文の概要: Exploring Hate Speech Detection with HateXplain and BERT
- arxiv url: http://arxiv.org/abs/2208.04489v1
- Date: Tue, 9 Aug 2022 01:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:33:03.588618
- Title: Exploring Hate Speech Detection with HateXplain and BERT
- Title(参考訳): HateXplainとBERTによるヘイトスピーチ検出の探索
- Authors: Arvind Subramaniam, Aryan Mehra and Sayani Kundu
- Abstract要約: ヘイトスピーチは、軽蔑的なコメントでコミュニティを狙うために多くの形態を採り、社会進歩の一歩を遡る。
HateXplainは、音声分類カテゴリとターゲットコミュニティとともに、合理的な形で注釈付きスパンを使用する、最近発表された最初のデータセットである。
このタスクを合理性とクラス予測という形で実行するようにBERTをチューニングし、正確性、説明可能性、バイアスにまたがるさまざまなメトリクスのパフォーマンスを比較します。
- 参考スコア(独自算出の注目度): 2.673732496490253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate Speech takes many forms to target communities with derogatory comments,
and takes humanity a step back in societal progress. HateXplain is a recently
published and first dataset to use annotated spans in the form of rationales,
along with speech classification categories and targeted communities to make
the classification more humanlike, explainable, accurate and less biased. We
tune BERT to perform this task in the form of rationales and class prediction,
and compare our performance on different metrics spanning across accuracy,
explainability and bias. Our novelty is threefold. Firstly, we experiment with
the amalgamated rationale class loss with different importance values.
Secondly, we experiment extensively with the ground truth attention values for
the rationales. With the introduction of conservative and lenient attentions,
we compare performance of the model on HateXplain and test our hypothesis.
Thirdly, in order to improve the unintended bias in our models, we use masking
of the target community words and note the improvement in bias and
explainability metrics. Overall, we are successful in achieving model
explanability, bias removal and several incremental improvements on the
original BERT implementation.
- Abstract(参考訳): ヘイトスピーチは、軽蔑的なコメントでコミュニティを狙うために多くの形態を採り、社会進歩の一歩を遡る。
HateXplainは、注釈付きスパンを合理性の形で使用するための、最近公開された最初のデータセットであり、音声分類カテゴリや、対象とするコミュニティによって、分類をより人間らしく、説明可能で、正確で、バイアスの少ないものにしている。
このタスクを合理性とクラス予測という形で実行するようにBERTをチューニングし、精度、説明可能性、バイアスにまたがるさまざまなメトリクスのパフォーマンスを比較します。
私たちの目新しさは3倍です。
まず,重要度値の異なる合理性クラス損失について実験を行った。
第二に、根拠となる真理の注意値を理論的に実験する。
保守的かつ寛大な注意の導入により,hatxplainにおけるモデルのパフォーマンスを比較し,仮説を検証した。
第3に,モデル内の意図しないバイアスを改善するために,対象とするコミュニティ語をマスキングし,バイアスと説明可能性指標の改善に留意する。
全体として、モデルの説明可能性、バイアス除去、およびオリジナルのBERT実装の漸進的な改善を実現しています。
関連論文リスト
- Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets [0.6918368994425961]
我々は、アノテータとターゲットの両方の社会デマトグラフィー情報を豊富なデータセットで活用する。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付ける広範囲なバイアスの存在が明らかになった。
私たちの研究は、ヘイトスピーチアノテーションにおける人間のバイアスに関する新しい、そして、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T14:48:57Z) - Causal Micro-Narratives [62.47217054314046]
テキストから因果マイクロナラティブを分類する新しい手法を提案する。
これらの物語は、対象対象の因果関係と/または効果の文レベルの説明である。
論文 参考訳(メタデータ) (2024-10-07T17:55:10Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - HateDebias: On the Diversity and Variability of Hate Speech Debiasing [14.225997610785354]
我々はHateDebiasという名のベンチマークを提案し、連続的かつ変化する環境下でのヘイトスピーチ検出のモデル能力を分析する。
具体的には、バイアスの多様性を満たすために、さまざまな種類のバイアスを持つ既存のヘイトスピーチ検出データセットを収集します。
我々は,HateDebiasの性能を1種類のバイアスで学習したモデルの検出精度を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:18:02Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - ToKen: Task Decomposition and Knowledge Infusion for Few-Shot Hate
Speech Detection [85.68684067031909]
この問題を数ショットの学習タスクとみなし、タスクを「構成」部分に分解することで大きな成果を上げている。
さらに、推論データセット(例えばAtomic 2020)から知識を注入することで、パフォーマンスはさらに向上する。
論文 参考訳(メタデータ) (2022-05-25T05:10:08Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - AngryBERT: Joint Learning Target and Emotion for Hate Speech Detection [5.649040805759824]
本論文では,感情分類によるヘイトスピーチ検出と,二次的関連タスクとしてのターゲット同定を共同学習するマルチタスク学習型モデルであるAngryBERTを提案する。
実験の結果,AngryBERTは最先端のシングルタスク学習やマルチタスク学習のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-03-14T16:17:26Z) - HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection [27.05719607624675]
この問題の複数の側面をカバーする最初のベンチマークヘイトスピーチデータセットであるHateXplainを紹介した。
データセット内の各投稿は、3つの異なる視点からアノテートされます。
トレーニングに人間の合理性を利用するモデルは、目標とするコミュニティに対する意図しない偏見を減らすのに優れている。
論文 参考訳(メタデータ) (2020-12-18T15:12:14Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Stereotypical Bias Removal for Hate Speech Detection Task using
Knowledge-based Generalizations [16.304516254043865]
ヘイトスピーチ検出のための非構造化テキストデータからのバイアス緩和について検討する。
バイアスのない学習に知識に基づく一般化を活用する新しい手法を提案する。
実世界の2つのデータセット、Wikipedia Talk PagesデータセットとTwitterデータセットを用いて実験したところ、知識に基づく一般化の使用により、より良いパフォーマンスが得られることがわかった。
論文 参考訳(メタデータ) (2020-01-15T18:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。