論文の概要: Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser
with Prompts
- arxiv url: http://arxiv.org/abs/2307.10213v1
- Date: Fri, 14 Jul 2023 13:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 11:15:57.550599
- Title: Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser
with Prompts
- Title(参考訳): 会話におけるバイアスの緩和: ヘイトスピーチ分類器とプロンプトによるデバイアス
- Authors: Shaina Raza, Chen Ding, Deval Pandya
- Abstract要約: まず、分類器を用いてヘイトスピーチを検出し、次にプロンプトを通じてバイアスやバイアスの少ない代替品を生成するデバイアス成分を利用する。
提案手法をベンチマークデータセット上で評価し,ヘイトスピーチのコメントによる否定性の低下を観察した。
- 参考スコア(独自算出の注目度): 0.6827423171182153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discriminatory language and biases are often present in hate speech during
conversations, which usually lead to negative impacts on targeted groups such
as those based on race, gender, and religion. To tackle this issue, we propose
an approach that involves a two-step process: first, detecting hate speech
using a classifier, and then utilizing a debiasing component that generates
less biased or unbiased alternatives through prompts. We evaluated our approach
on a benchmark dataset and observed reduction in negativity due to hate speech
comments. The proposed method contributes to the ongoing efforts to reduce
biases in online discourse and promote a more inclusive and fair environment
for communication.
- Abstract(参考訳): 差別的言語とバイアスは会話中のヘイトスピーチにしばしば現れ、人種、性別、宗教に基づくグループのようなターゲットグループに悪影響を及ぼす。
この問題に対処するために、まず、分類器を用いてヘイトスピーチを検出し、次にプロンプトを通じてバイアスやバイアスの少ない代替品を生成する嫌悪成分を利用する2段階のプロセスを提案する。
提案手法をベンチマークデータセット上で評価し,ヘイトスピーチコメントによる否定性の低下を観察した。
提案手法は,オンライン談話におけるバイアスの低減と,より包括的で公平なコミュニケーション環境の促進に寄与する。
関連論文リスト
- CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Bias-to-Text: Debiasing Unknown Visual Biases through Language
Interpretation [72.02386627482056]
本稿では,視覚モデルにおけるバイアスを識別・緩和するB2Tフレームワークを提案する。
視覚バイアスの言語記述は、新しいバイアスの発見と効果的なモデルバイアスの発見を可能にする説明可能な形式を提供する。
様々な画像分類・生成タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - Unveiling the Hidden Agenda: Biases in News Reporting and Consumption [59.55900146668931]
イタリアのワクチン論争に関する6年間のデータセットを構築し、物語と選択バイアスを特定するためにベイジアン潜在空間モデルを採用する。
バイアスとエンゲージメントの間に非線形な関係が見られ、極端な位置へのエンゲージメントが高くなった。
Twitter上でのニュース消費の分析は、同様のイデオロギー的な立場のニュースメディアの間で、一般的なオーディエンスを明らかにしている。
論文 参考訳(メタデータ) (2023-01-14T18:58:42Z) - Hate Speech and Counter Speech Detection: Conversational Context Does
Matter [7.333666276087548]
本稿では,オンラインヘイトとカウンタースピーチのアノテーションと検出における会話コンテキストの役割について検討する。
私たちはRedditのコメントに3段階の分類タスク(ヘイトスピーチ、カウンタースピーチ、中立性)のためのコンテキスト対応データセットを作成しました。
論文 参考訳(メタデータ) (2022-06-13T19:05:44Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Hate Speech Classifiers Learn Human-Like Social Stereotypes [4.132204773132937]
社会的ステレオタイプは、異なるグループについての個人の判断に悪影響を及ぼす。
社会的ステレオタイプは、人々が少数民族社会グループに向けられた言語をどのように理解するかにおいて重要な役割を担っている。
論文 参考訳(メタデータ) (2021-10-28T01:35:41Z) - Towards generalisable hate speech detection: a review on obstacles and
solutions [6.531659195805749]
本稿では,既存のヘイトスピーチ検出モデルの一般化について概説する。
主な障害に対処する既存の試みを要約し、ヘイトスピーチ検出における一般化を改善するための今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2021-02-17T17:27:48Z) - Annotating for Hate Speech: The MaNeCo Corpus and Some Input from
Critical Discourse Analysis [3.3008315224941978]
本稿では,Web 2.0コメンタリーのコーパスにおいて,ヘイトスピーチのアノテーションのための新しいスキームを提案する。
地中海の移民危機やマルタのLGBTIQ+問題に関するニュースに反応した投稿の批判的な分析に動機づけられている。
本稿では,二分詞+/-ヘイト音声分類に対してパイロットテストを行い,より高いアノテータ間合意が得られる多層アノテーション方式を提案する。
論文 参考訳(メタデータ) (2020-08-14T07:39:21Z) - Towards Debiasing Sentence Representations [109.70181221796469]
Sent-Debiasはバイアスを取り除くのに有効であり、同時に文レベルの下流タスクのパフォーマンスを保っていることを示す。
我々は、より公平なNLPのための広く採用されている文表現から社会的偏見を識別・除去する今後の研究に刺激を与えることを期待している。
論文 参考訳(メタデータ) (2020-07-16T04:22:30Z) - Demoting Racial Bias in Hate Speech Detection [39.376886409461775]
現在のヘイトスピーチデータセットには、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に相関がある。
本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。
ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AAEテキストの偽陽性率を大幅に低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-05-25T17:43:22Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。