論文の概要: Hypothesis Engineering for Zero-Shot Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2210.00910v1
- Date: Mon, 3 Oct 2022 13:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:06:31.555739
- Title: Hypothesis Engineering for Zero-Shot Hate Speech Detection
- Title(参考訳): ゼロショットヘイト音声検出のための仮説工学
- Authors: Janis Goldzycher, Gerold Schneider
- Abstract要約: 英語のNLIに基づくゼロショットヘイトスピーチ検出を改善するために,複数の仮説を組み合わせるシンプルな手法を提案する。
戦略は複数の仮説を用いて入力テキストの様々な側面を予測し、これらの予測を最終的な判定に組み合わせる。
- 参考スコア(独自算出の注目度): 0.5330240017302619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard approaches to hate speech detection rely on sufficient available
hate speech annotations. Extending previous work that repurposes natural
language inference (NLI) models for zero-shot text classification, we propose a
simple approach that combines multiple hypotheses to improve English NLI-based
zero-shot hate speech detection. We first conduct an error analysis for vanilla
NLI-based zero-shot hate speech detection and then develop four strategies
based on this analysis. The strategies use multiple hypotheses to predict
various aspects of an input text and combine these predictions into a final
verdict. We find that the zero-shot baseline used for the initial error
analysis already outperforms commercial systems and fine-tuned BERT-based hate
speech detection models on HateCheck. The combination of the proposed
strategies further increases the zero-shot accuracy of 79.4% on HateCheck by
7.9 percentage points (pp), and the accuracy of 69.6% on ETHOS by 10.0pp.
- Abstract(参考訳): ヘイトスピーチ検出に対する標準的なアプローチは、十分なヘイトスピーチアノテーションに依存している。
ゼロショットテキスト分類のための自然言語推論(NLI)モデルを再利用する以前の研究を拡張し、複数の仮説を組み合わせて英語のゼロショットヘイトスピーチ検出を改善するシンプルなアプローチを提案する。
まず,バニラNLIに基づくゼロショットヘイト音声検出の誤り解析を行い,その解析に基づいて4つの戦略を開発する。
戦略は複数の仮説を用いて入力テキストの様々な側面を予測し、これらの予測を最終評決に組み合わせる。
最初のエラー解析に使われたゼロショットベースラインは、hatcheckの商用システムやbertベースのヘイトスピーチ検出モデルよりも優れています。
提案手法の組み合わせにより、HateCheckでは79.4%のゼロショット精度が7.9ポイント(pp)、ETHOSでは69.6%の精度が10.0pp向上した。
関連論文リスト
- HateTinyLLM : Hate Speech Detection Using Tiny Large Language Models [0.0]
ヘイトスピーチ(Hate speech)は、個人やグループに対する軽蔑的または差別的な言語をターゲットにした、言語、書面、行動的なコミュニケーションを包含する。
HateTinyLLMは、効率的なヘイトスピーチ検出のための微調整デコーダのみの小さな大規模言語モデル(tinyLLM)に基づく、新しいフレームワークである。
論文 参考訳(メタデータ) (2024-04-26T05:29:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - On the Challenges of Building Datasets for Hate Speech Detection [0.0]
我々はまず,データ中心のレンズを用いてヘイトスピーチ検出を取り巻く問題を分析する。
次に、データ生成パイプラインを7つの広範囲にわたってカプセル化する、包括的なフレームワークの概要を示します。
論文 参考訳(メタデータ) (2023-09-06T11:15:47Z) - Uncertainty-Aware Unlikelihood Learning Improves Generative Aspect
Sentiment Quad Prediction [52.05304897163256]
トークンレベルの生成を制御するテンプレートに依存しない手法を提案する。
具体的には、事前訓練された言語モデルのビルトイン不確実性を理解するために、モンテカルロのドロップアウトを導入する。
さらに,不確実性を認識した誤りトークンを抑制するために,差分学習を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:49:06Z) - Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate
Speech Detection [4.809236881780707]
ChatGPTのような大規模言語モデルは、ヘイトスピーチ検出など、いくつかのタスクを実行する上で大きな可能性を最近示した。
本研究では,ChatGPTモデルの長所と短所を,11言語にわたるヘッジ音声の粒度レベルで評価することを目的とした。
論文 参考訳(メタデータ) (2023-05-22T17:36:58Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - APEACH: Attacking Pejorative Expressions with Analysis on
Crowd-Generated Hate Speech Evaluation Datasets [4.034948808542701]
APEACHは、特定されていないユーザによって生成されるヘイトスピーチの収集を可能にする方法である。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,ヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
論文 参考訳(メタデータ) (2022-02-25T02:04:38Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。