論文の概要: Fight Fire with Fire: Fine-tuning Hate Detectors using Large Samples of
Generated Hate Speech
- arxiv url: http://arxiv.org/abs/2109.00591v1
- Date: Wed, 1 Sep 2021 19:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:10:45.580104
- Title: Fight Fire with Fire: Fine-tuning Hate Detectors using Large Samples of
Generated Hate Speech
- Title(参考訳): 火炎対策:発声Hate音声の大きなサンプルを用いた微調整Hate検出器
- Authors: Tomer Wullach, Amir Adler, Einat Minkov
- Abstract要約: 我々は、GPT LMを用いて、利用可能なラベル付き例から大量の合成ヘイトスピーチ列を生成する。
BERT、RoBERTa、ALBERTのモデルを用いた実証的研究により、このアプローチが一般化を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 3.50640918825436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic hate speech detection is hampered by the scarcity of labeled
datasetd, leading to poor generalization. We employ pretrained language models
(LMs) to alleviate this data bottleneck. We utilize the GPT LM for generating
large amounts of synthetic hate speech sequences from available labeled
examples, and leverage the generated data in fine-tuning large pretrained LMs
on hate detection. An empirical study using the models of BERT, RoBERTa and
ALBERT, shows that this approach improves generalization significantly and
consistently within and across data distributions. In fact, we find that
generating relevant labeled hate speech sequences is preferable to using
out-of-domain, and sometimes also within-domain, human-labeled examples.
- Abstract(参考訳): 自動ヘイトスピーチ検出はラベル付きデータセットの不足によって妨げられ、一般化が困難になる。
私たちは、このデータのボトルネックを軽減するために、事前訓練された言語モデル(LM)を使用します。
我々はgpt lmを利用可能なラベル付き例から大量の合成ヘイト音声列を生成するために利用し,ヘイト検出の微調整において生成されたデータを活用する。
BERT、RoBERTa、ALBERTのモデルを用いた実証研究により、このアプローチはデータ分布内およびデータ分布内における一般化を大幅に改善することを示した。
実際、関連するラベル付きヘイトスピーチシーケンスの生成は、ドメイン外、時にはドメイン内、人間のラベル付き例を使うよりも望ましいことが分かっています。
関連論文リスト
- GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Generative AI for Hate Speech Detection: Evaluation and Findings [11.478263835391436]
生成AIは、大量の合成ヘイトスピーチシーケンスを生成するために利用されてきた。
本章では,本手法の方法論,実験的設定,評価について概説する。
GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるのかという疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2023-11-16T16:09:43Z) - Robust Hate Speech Detection in Social Media: A Cross-Dataset Empirical
Evaluation [5.16706940452805]
我々は、さまざまなヘイトスピーチ検出データセット上で、言語モデルを微調整する大規模なクロスデータセット比較を行う。
この分析は、トレーニングデータとして使用するデータセットが、他のデータセットよりも一般化可能であることを示している。
実験により、ヘイトスピーチ検出データセットの組み合わせが、堅牢なヘイトスピーチ検出モデルの開発にどのように貢献するかが示されている。
論文 参考訳(メタデータ) (2023-07-04T12:22:40Z) - Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文 参考訳(メタデータ) (2023-05-01T16:57:33Z) - APEACH: Attacking Pejorative Expressions with Analysis on
Crowd-Generated Hate Speech Evaluation Datasets [4.034948808542701]
APEACHは、特定されていないユーザによって生成されるヘイトスピーチの収集を可能にする方法である。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,ヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
論文 参考訳(メタデータ) (2022-02-25T02:04:38Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Character-level HyperNetworks for Hate Speech Detection [3.50640918825436]
ヘイトスピーチ検出の自動化手法は、通常、最先端のディープラーニング(DL)ベースのテキスト分類器を用いる。
本稿では,ハイトスピーチ検出のためのHyperNetworksを提案する。これは,小規模補助ネットワークによって重みが制御される特殊なDLネットワークのクラスである。
我々は最先端の言語モデルに匹敵する、あるいは優れたパフォーマンスを達成し、事前訓練され、桁数は桁違いに大きい。
論文 参考訳(メタデータ) (2021-11-11T17:48:31Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。