論文の概要: Detecting Hate Speech with GPT-3
- arxiv url: http://arxiv.org/abs/2103.12407v1
- Date: Tue, 23 Mar 2021 09:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 00:01:19.776314
- Title: Detecting Hate Speech with GPT-3
- Title(参考訳): GPT-3によるヘイトスピーチの検出
- Authors: Ke-Li Chiu and Rohan Alexander
- Abstract要約: gpt-3を用いて、ゼロ、ワン、マイショットの学習でセクシストや人種差別的な文章を識別する。
数ショット学習とプロンプトに含まれる指示により、モデルの精度は78パーセントまで向上します。
我々は,大規模言語モデルがヘイトスピーチの検出において果たす役割と,ヘイトスピーチや自己警察に対抗するためにさらなる開発言語モデルを使用することを結論した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sophisticated language models such as OpenAI's GPT-3 can generate hateful
text that targets marginalized groups. Given this capacity, we are interested
in whether large language models can be used to identify hate speech and
classify text as sexist or racist? We use GPT-3 to identify sexist and racist
text passages with zero-, one-, and few-shot learning. We find that with zero-
and one-shot learning, GPT-3 is able to identify sexist or racist text with an
accuracy between 48 per cent and 69 per cent. With few-shot learning and an
instruction included in the prompt, the model's accuracy can be as high as 78
per cent. We conclude that large language models have a role to play in hate
speech detection, and that with further development language models could be
used to counter hate speech and even self-police.
- Abstract(参考訳): OpenAIのGPT-3のような洗練された言語モデルは、疎外グループをターゲットにしたヘイトフルテキストを生成することができる。
この能力を考えると、大きな言語モデルを使ってヘイトスピーチを識別し、テキストをセクシストや人種差別主義者に分類できるかに興味があります。
gpt-3を用いて、ゼロ、ワン、マイショットの学習でセクシストや人種差別的な文章を識別する。
ゼロ・ワンショットの学習では、GPT-3は性別や人種差別のテキストを48%から69%の精度で識別できる。
プロンプトに少量の学習とインストラクションが組み込まれており、モデルの精度は最大で78パーセントである。
我々は,大規模言語モデルがヘイトスピーチの検出において果たす役割と,ヘイトスピーチや自己警察に対抗するためにさらなる開発言語モデルを使用することを結論した。
関連論文リスト
- Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A
Battle of LSTM and Transformers [0.0]
我々はベンガル語、アサメセ語、ボド語、シンハラ語、グジャラート語の5つの異なる言語でヘイトスピーチの分類を比較した。
Bert Base Multilingual Casedは、ベンガル語で0.67027得点、アサメ語で0.70525得点を達成した。
シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。
論文 参考訳(メタデータ) (2023-12-09T20:24:00Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Meta AI at Arabic Hate Speech 2022: MultiTask Learning with
Self-Correction for Hate Speech Classification [20.632017481940075]
アラビア・ファイングレード・ヘイト音声検出共有タスクに取り組む。
課題は,(1)攻撃的言語を含むか否か,(2)ヘイトスピーチとみなすか否かを予測し,(3)ファイングレード・ヘイトスピーチラベルを6つのカテゴリのうちの1つから予測することである。
最後の解決策は,マルチタスク学習と,ヘイトスピーチのサブタスクに対して82.7%の自己整合性補正手法を用いたモデルのアンサンブルである。
論文 参考訳(メタデータ) (2022-05-16T19:53:16Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。