論文の概要: HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models
- arxiv url: http://arxiv.org/abs/2403.11456v4
- Date: Sat, 05 Oct 2024 21:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:09.484646
- Title: HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models
- Title(参考訳): HateCOT:大規模言語モデルによる一般化可能な音声検出のための説明強化データセット
- Authors: Huy Nghiem, Hal Daumé III,
- Abstract要約: HateCOTはイングランドのデータセットで、様々な情報源から52,000以上のサンプルを収集している。
HateCOTはGPT-3.5Turboによって生成され、ヒトによって培養される説明を特徴としている。
- 参考スコア(独自算出の注目度): 23.416609091912026
- License:
- Abstract: The widespread use of social media necessitates reliable and efficient detection of offensive content to mitigate harmful effects. Although sophisticated models perform well on individual datasets, they often fail to generalize due to varying definitions and labeling of "offensive content." In this paper, we introduce HateCOT, an English dataset with over 52,000 samples from diverse sources, featuring explanations generated by GPT-3.5Turbo and curated by humans. We demonstrate that pretraining on HateCOT significantly enhances the performance of open-source Large Language Models on three benchmark datasets for offensive content detection in both zero-shot and few-shot settings, despite differences in domain and task. Additionally, HateCOT facilitates effective K-shot fine-tuning of LLMs with limited data and improves the quality of their explanations, as confirmed by our human evaluation.
- Abstract(参考訳): ソーシャルメディアの普及は、有害な影響を軽減するために、攻撃的コンテンツの信頼性と効率的な検出を必要とする。
洗練されたモデルは個々のデータセットでよく機能するが、様々な定義や「悪質な内容」のラベル付けのために一般化に失敗することが多い。
本稿では,GPT-3.5Turboが生成し,ヒトがキュレートした説明を特徴とする52,000以上のサンプルを多種多様な情報源から収集した英語データセットであるHateCOTを紹介する。
HateCOTの事前トレーニングは、ドメインやタスクの違いにもかかわらず、ゼロショットと少数ショットの両方で攻撃的コンテンツ検出のための3つのベンチマークデータセット上で、オープンソースのLarge Language Modelsの性能を大幅に向上させることを示した。
さらに、HateCOTは、限られたデータによるLLMの効果的なKショット微調整を容易にし、人間の評価によって確認された説明の質を向上させる。
関連論文リスト
- Unmasking the Imposters: How Censorship and Domain Adaptation Affect the Detection of Machine-Generated Tweets [2.41710192205034]
4つの著名な大規模言語モデル(LLM)の生成能力を調べるために,9つのTwitterデータセットを作成する手法を提案する。
これらのデータセットは、3つのオープンソースLCMの7Bおよび8Bパラメータベースインストラクションモデルを含む、検閲されていない4つの5つのモデル構成を含んでいる。
評価の結果,「アンセンソルド」モデルが自動検出手法の有効性を著しく損なうことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-25T22:49:17Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Generative AI for Hate Speech Detection: Evaluation and Findings [11.478263835391436]
生成AIは、大量の合成ヘイトスピーチシーケンスを生成するために利用されてきた。
本章では,本手法の方法論,実験的設定,評価について概説する。
GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるのかという疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2023-11-16T16:09:43Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Process for Adapting Language Models to Society (PALMS) with
Values-Targeted Datasets [0.0]
言語モデルは有害で偏りのある出力を生成し、望ましくない振る舞いを示すことができる。
本稿では,言語モデルから社会への適応プロセス(PALMS)を提案する。
言語モデルの振る舞いを著しく調整することは、手書きの小さなデータセットで実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-18T19:38:28Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。