論文の概要: HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online
Posts using Large Language Models
- arxiv url: http://arxiv.org/abs/2310.13985v1
- Date: Sat, 21 Oct 2023 12:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 04:06:49.956871
- Title: HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online
Posts using Large Language Models
- Title(参考訳): HateRephrase:大規模言語モデルを用いたオンライン投稿におけるHate IntensityのゼロおよびFew-Shot削減
- Authors: Vibhor Agarwal, Yu Chen, Nishanth Sastry
- Abstract要約: 本稿では,投稿前にもヘイトスピーチ内容の表現を示唆するアプローチについて検討する。
タスク記述、ヘイト定義、数発のデモ、思考の連鎖に基づく4つの異なるプロンプトを開発する。
GPT-3.5は,様々な種類のプロンプトに対して,ベースラインモデルやオープンソースモデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 4.9711707739781215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech has become pervasive in today's digital age. Although there has
been considerable research to detect hate speech or generate counter speech to
combat hateful views, these approaches still cannot completely eliminate the
potential harmful societal consequences of hate speech -- hate speech, even
when detected, can often not be taken down or is often not taken down enough;
and hate speech unfortunately spreads quickly, often much faster than any
generated counter speech.
This paper investigates a relatively new yet simple and effective approach of
suggesting a rephrasing of potential hate speech content even before the post
is made. We show that Large Language Models (LLMs) perform well on this task,
outperforming state-of-the-art baselines such as BART-Detox. We develop 4
different prompts based on task description, hate definition, few-shot
demonstrations and chain-of-thoughts for comprehensive experiments and conduct
experiments on open-source LLMs such as LLaMA-1, LLaMA-2 chat, Vicuna as well
as OpenAI's GPT-3.5. We propose various evaluation metrics to measure the
efficacy of the generated text and ensure the generated text has reduced hate
intensity without drastically changing the semantic meaning of the original
text.
We find that LLMs with a few-shot demonstrations prompt work the best in
generating acceptable hate-rephrased text with semantic meaning similar to the
original text. Overall, we find that GPT-3.5 outperforms the baseline and
open-source models for all the different kinds of prompts. We also perform
human evaluations and interestingly, find that the rephrasings generated by
GPT-3.5 outperform even the human-generated ground-truth rephrasings in the
dataset. We also conduct detailed ablation studies to investigate why LLMs work
satisfactorily on this task and conduct a failure analysis to understand the
gaps.
- Abstract(参考訳): 今日のデジタル時代には憎しみの言葉が広まりつつある。
ヘイトスピーチを検知したり、ヘイトフルな見解に対抗するためにカウンタースピーチを生成する研究が盛んに行われているが、ヘイトスピーチによる潜在的有害な社会的な結果を完全に排除することはできない。
本稿では,ポスト作成前のヘイトスピーチ内容の表現を,比較的シンプルかつ効果的に提案する手法について検討する。
大規模言語モデル(LLM)は,BART-Detoxのような最先端のベースラインよりも優れていることを示す。
我々は,LLaMA-1,LLaMA-2チャット,Vicuna,OpenAIのGPT-3.5などのオープンソースLLMに対して,タスク記述やヘイト定義,数発のデモ,チェーンオブ思想に基づく4つのプロンプトを開発した。
本稿では,生成したテキストの有効性を計測し,生成したテキストがヘイト強度を低減し,原文の意味意味を劇的に変えることなく,様々な評価指標を提案する。
数発のデモによるLCMは、オリジナルのテキストと似た意味を持つ許容可能な憎悪表現文を生成するのに最適であることがわかった。
全体として、GPT-3.5は、あらゆる種類のプロンプトに対して、ベースラインモデルとオープンソースモデルよりも優れています。
また, 人為的な評価を行い, GPT-3.5 による表現は, データセット中の人為的な接地的表現よりも優れていた。
また, LLMがなぜこの課題に満足して機能するのかを詳細に検討し, ギャップを理解するために故障解析を行う。
関連論文リスト
- Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model
for online comments [2.162419921663162]
ソーシャルメディア投稿において,Hate Context Detection と Hate Intensity Reduction のための新しいエンドツーエンドモデル HCDIR を提案する。
我々は、ヘイトフルコメントを検出するために、いくつかの事前訓練された言語モデルを微調整し、最も優れたヘイトフルコメント検出モデルを確認した。
論文 参考訳(メタデータ) (2023-12-20T17:05:46Z) - HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning [29.519687405350304]
本稿では,大規模言語モデル(LLM)の推論能力を利用して,ヘイトスピーチの説明のギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。
SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いた手法がベースラインを一貫して上回ることを示した。
提案手法は,訓練されたモデルの説明品質を高め,未知のデータセットへの一般化を改善する。
論文 参考訳(メタデータ) (2023-11-01T06:09:54Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文 参考訳(メタデータ) (2023-03-04T22:28:29Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。