論文の概要: Generative AI for Hate Speech Detection: Evaluation and Findings
- arxiv url: http://arxiv.org/abs/2311.09993v1
- Date: Thu, 16 Nov 2023 16:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 13:39:59.952061
- Title: Generative AI for Hate Speech Detection: Evaluation and Findings
- Title(参考訳): ヘイトスピーチ検出のための生成AI:評価と発見
- Authors: Sagi Pendzel, Tomer Wullach, Amir Adler and Einat Minkov
- Abstract要約: 生成AIは、大量の合成ヘイトスピーチシーケンスを生成するために利用されてきた。
本章では,本手法の方法論,実験的設定,評価について概説する。
GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるのかという疑問が浮かび上がっている。
- 参考スコア(独自算出の注目度): 11.478263835391436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic hate speech detection using deep neural models is hampered by the
scarcity of labeled datasets, leading to poor generalization. To mitigate this
problem, generative AI has been utilized to generate large amounts of synthetic
hate speech sequences from available labeled examples, leveraging the generated
data in finetuning large pre-trained language models (LLMs). In this chapter,
we provide a review of relevant methods, experimental setups and evaluation of
this approach. In addition to general LLMs, such as BERT, RoBERTa and ALBERT,
we apply and evaluate the impact of train set augmentation with generated data
using LLMs that have been already adapted for hate detection, including
RoBERTa-Toxicity, HateBERT, HateXplain, ToxDect, and ToxiGen. An empirical
study corroborates our previous findings, showing that this approach improves
hate speech generalization, boosting recall performance across data
distributions. In addition, we explore and compare the performance of the
finetuned LLMs with zero-shot hate detection using a GPT-3.5 model. Our results
demonstrate that while better generalization is achieved using the GPT-3.5
model, it achieves mediocre recall and low precision on most datasets. It is an
open question whether the sensitivity of models such as GPT-3.5, and onward,
can be improved using similar techniques of text generation.
- Abstract(参考訳): ディープニューラルモデルを用いたヘイトスピーチの自動検出は、ラベル付きデータセットの不足によって妨げられ、一般化が損なわれる。
この問題を軽減するために、生成AIを使用して、利用可能なラベル付き例から大量の合成ヘイトスピーチシーケンスを生成し、生成されたデータを大規模事前学習言語モデル(LLM)の微調整に活用している。
本章では、関連する手法、実験的な設定、およびこのアプローチの評価について概観する。
BERT,RoBERTa,ALBERTなどの一般的なLLMに加えて,RoBERTa-Toxicity,HateBERT,HateXplain,ToxDect,ToxiGenなど,すでにヘイト検出に適応しているLLMを用いて,生成したデータを用いて列車セット拡張の影響を適用・評価する。
このアプローチがヘイトスピーチの一般化を改善し、データ分布全体のリコール性能を高めていることを示している。
さらに,GPT-3.5モデルを用いたゼロショットヘイト検出による微調整LDMの性能比較を行った。
この結果から, GPT-3.5モデルを用いてより優れた一般化が達成されているが, 殆どのデータセットに対して中程度のリコールと低精度を実現することができた。
GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるかどうかという問題である。
関連論文リスト
- HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models [23.416609091912026]
HateCOTはイングランドのデータセットで、様々な情報源から52,000以上のサンプルを収集している。
HateCOTはGPT-3.5Turboによって生成され、ヒトによって培養される説明を特徴としている。
論文 参考訳(メタデータ) (2024-03-18T04:12:35Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - GOLD: Improving Out-of-Scope Detection in Dialogues using Data
Augmentation [41.04593978694591]
金のテクニックは、既存のデータを拡張して、低データ状態で動作するより良いOOS検出器を訓練する。
3つのベンチマークを対象とした実験では、上位のGOLDモデルは、すべての主要なメトリクスで既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-09-07T13:35:03Z) - Fight Fire with Fire: Fine-tuning Hate Detectors using Large Samples of
Generated Hate Speech [3.50640918825436]
我々は、GPT LMを用いて、利用可能なラベル付き例から大量の合成ヘイトスピーチ列を生成する。
BERT、RoBERTa、ALBERTのモデルを用いた実証的研究により、このアプローチが一般化を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-09-01T19:47:01Z) - Spatio-Temporal Graph Contrastive Learning [49.132528449909316]
これらの問題に対処するための時空間グラフコントラスト学習フレームワーク(STGCL)を提案する。
グラフ構造、時間領域、周波数領域の4種類のデータ拡張について詳述する。
我々のフレームワークは、実世界の3つのデータセットと4つの最先端モデルで評価されている。
論文 参考訳(メタデータ) (2021-08-26T16:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。