論文の概要: HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models
- arxiv url: http://arxiv.org/abs/2403.11456v2
- Date: Wed, 17 Apr 2024 16:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:41:31.817601
- Title: HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models
- Title(参考訳): HateCOT:大規模言語モデルによる一般化可能な音声検出のための説明強化データセット
- Authors: Huy Nghiem, Hal Daumé III,
- Abstract要約: HateCOTは、GPT-3.5-Turboと人間によって生成された説明を含む、さまざまな既存のソースから52,000のサンプルのデータセットである。
HateCOT上での攻撃的コンテンツ検出のための事前学習モデルは、ゼロおよび少数設定の3つのベンチマークデータセット上で、オープンソースのLanguage Modelsを著しくブートする。
- 参考スコア(独自算出の注目度): 23.416609091912026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ubiquitousness of social media has led to the need for reliable and efficient detection of offensive content to limit harmful effects. This has led to a proliferation of datasets and models related to detecting offensive content. While sophisticated models have attained strong performance on individual datasets, these models often do not generalize due to differences between how "offensive content" is conceptualized, and the resulting differences in how these datasets are labeled. In this paper, we introduce HateCOT, a dataset of 52,000 samples drawn from diverse existing sources with explanations generated by GPT-3.5-Turbo and human-curated. We show that pre-training models for the detection of offensive content on HateCOT significantly boots open-sourced Language Models on three benchmark datasets in both zero and few-shot settings, despite differences in domain and task.} We further find that HateCOT enables effective K-shot fine-tuning in the low-resource settings.
- Abstract(参考訳): ソーシャルメディアのユビキタス化は、有害な影響を制限するために攻撃内容の信頼性と効率的な検出の必要性につながっている。
これにより、攻撃的コンテンツの検出に関連するデータセットやモデルが急増した。
洗練されたモデルは個々のデータセットで高いパフォーマンスを達成したが、これらのモデルは「悪質なコンテンツ」がいかに概念化されているか、そしてこれらのデータセットのラベル付け方法の違いによって一般化されないことが多い。
本稿では, GPT-3.5-Turbo による説明と人為計算による説明により, 既存資料から52,000個のサンプルを抽出したHateCOTについて紹介する。
HateCOT上での攻撃的コンテンツ検出のための事前学習モデルは、ドメインやタスクの違いにもかかわらず、ゼロと数ショットの両方で、オープンソースのLanguage Modelsを3つのベンチマークデータセット上で起動する。
さらに、HateCOTは、低リソース設定で効果的なKショットの微調整を可能にする。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Unmasking the Imposters: How Censorship and Domain Adaptation Affect the Detection of Machine-Generated Tweets [2.41710192205034]
4つの著名な大規模言語モデル(LLM)の生成能力を調べるために,9つのTwitterデータセットを作成する手法を提案する。
これらのデータセットは、3つのオープンソースLCMの7Bおよび8Bパラメータベースインストラクションモデルを含む、検閲されていない4つの5つのモデル構成を含んでいる。
評価の結果,「アンセンソルド」モデルが自動検出手法の有効性を著しく損なうことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-25T22:49:17Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Generative AI for Hate Speech Detection: Evaluation and Findings [11.478263835391436]
生成AIは、大量の合成ヘイトスピーチシーケンスを生成するために利用されてきた。
本章では,本手法の方法論,実験的設定,評価について概説する。
GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるのかという疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2023-11-16T16:09:43Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。