Fugu-MT 論文翻訳(概要): Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser with Prompts

論文の概要: Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser with Prompts

arxiv url: http://arxiv.org/abs/2307.10213v1
Date: Fri, 14 Jul 2023 13:33:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-23 11:15:57.550599
Title: Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser with Prompts
Title（参考訳）: 会話におけるバイアスの緩和: ヘイトスピーチ分類器とプロンプトによるデバイアス
Authors: Shaina Raza, Chen Ding, Deval Pandya
Abstract要約: まず、分類器を用いてヘイトスピーチを検出し、次にプロンプトを通じてバイアスやバイアスの少ない代替品を生成するデバイアス成分を利用する。提案手法をベンチマークデータセット上で評価し,ヘイトスピーチのコメントによる否定性の低下を観察した。
参考スコア（独自算出の注目度）: 0.6827423171182153
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Discriminatory language and biases are often present in hate speech during conversations, which usually lead to negative impacts on targeted groups such as those based on race, gender, and religion. To tackle this issue, we propose an approach that involves a two-step process: first, detecting hate speech using a classifier, and then utilizing a debiasing component that generates less biased or unbiased alternatives through prompts. We evaluated our approach on a benchmark dataset and observed reduction in negativity due to hate speech comments. The proposed method contributes to the ongoing efforts to reduce biases in online discourse and promote a more inclusive and fair environment for communication.
Abstract（参考訳）: 差別的言語とバイアスは会話中のヘイトスピーチにしばしば現れ、人種、性別、宗教に基づくグループのようなターゲットグループに悪影響を及ぼす。この問題に対処するために、まず、分類器を用いてヘイトスピーチを検出し、次にプロンプトを通じてバイアスやバイアスの少ない代替品を生成する嫌悪成分を利用する2段階のプロセスを提案する。提案手法をベンチマークデータセット上で評価し,ヘイトスピーチコメントによる否定性の低下を観察した。提案手法は,オンライン談話におけるバイアスの低減と,より包括的で公平なコミュニケーション環境の促進に寄与する。

関連論文リスト

Dealing with Annotator Disagreement in Hate Speech Classification [0.0]
本稿では,アノテータの不一致に対処するための戦略について検討する。トルコのつぶやきにおけるヘイトスピーチ分類に関するアノテータの不一致に対処するための様々なアプローチを、細調整されたBERTモデルに基づいて評価した。本研究は,問題の重要性を強調し,オンライン談話におけるヘイトスピーチの検出と理解のための最先端のベンチマーク結果を提供する。
論文参考訳（メタデータ） (2025-02-12T10:19:50Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
HateDebias: On the Diversity and Variability of Hate Speech Debiasing [14.225997610785354]
我々はHateDebiasという名のベンチマークを提案し、連続的かつ変化する環境下でのヘイトスピーチ検出のモデル能力を分析する。具体的には、バイアスの多様性を満たすために、さまざまな種類のバイアスを持つ既存のヘイトスピーチ検出データセットを収集します。我々は,HateDebiasの性能を1種類のバイアスで学習したモデルの検出精度を評価する。
論文参考訳（メタデータ） (2024-06-07T12:18:02Z)
CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文参考訳（メタデータ） (2023-03-02T17:30:43Z)
Unveiling the Hidden Agenda: Biases in News Reporting and Consumption [59.55900146668931]
イタリアのワクチン論争に関する6年間のデータセットを構築し、物語と選択バイアスを特定するためにベイジアン潜在空間モデルを採用する。バイアスとエンゲージメントの間に非線形な関係が見られ、極端な位置へのエンゲージメントが高くなった。 Twitter上でのニュース消費の分析は、同様のイデオロギー的な立場のニュースメディアの間で、一般的なオーディエンスを明らかにしている。
論文参考訳（メタデータ） (2023-01-14T18:58:42Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Hate Speech Classifiers Learn Human-Like Social Stereotypes [4.132204773132937]
社会的ステレオタイプは、異なるグループについての個人の判断に悪影響を及ぼす。社会的ステレオタイプは、人々が少数民族社会グループに向けられた言語をどのように理解するかにおいて重要な役割を担っている。
論文参考訳（メタデータ） (2021-10-28T01:35:41Z)
Towards generalisable hate speech detection: a review on obstacles and solutions [6.531659195805749]
本稿では,既存のヘイトスピーチ検出モデルの一般化について概説する。主な障害に対処する既存の試みを要約し、ヘイトスピーチ検出における一般化を改善するための今後の研究の方向性を提案する。
論文参考訳（メタデータ） (2021-02-17T17:27:48Z)
Annotating for Hate Speech: The MaNeCo Corpus and Some Input from Critical Discourse Analysis [3.3008315224941978]
本稿では,Web 2.0コメンタリーのコーパスにおいて,ヘイトスピーチのアノテーションのための新しいスキームを提案する。地中海の移民危機やマルタのLGBTIQ+問題に関するニュースに反応した投稿の批判的な分析に動機づけられている。本稿では,二分詞+/-ヘイト音声分類に対してパイロットテストを行い,より高いアノテータ間合意が得られる多層アノテーション方式を提案する。
論文参考訳（メタデータ） (2020-08-14T07:39:21Z)
Towards Debiasing Sentence Representations [109.70181221796469]
Sent-Debiasはバイアスを取り除くのに有効であり、同時に文レベルの下流タスクのパフォーマンスを保っていることを示す。我々は、より公平なNLPのための広く採用されている文表現から社会的偏見を識別・除去する今後の研究に刺激を与えることを期待している。
論文参考訳（メタデータ） (2020-07-16T04:22:30Z)
Demoting Racial Bias in Hate Speech Detection [39.376886409461775]
現在のヘイトスピーチデータセットには、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に相関がある。本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AAEテキストの偽陽性率を大幅に低減できる可能性が示唆された。
論文参考訳（メタデータ） (2020-05-25T17:43:22Z)
Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。 1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文参考訳（メタデータ） (2020-05-01T08:25:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。