論文の概要: Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias
- arxiv url: http://arxiv.org/abs/2406.00020v1
- Date: Thu, 23 May 2024 18:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:19:21.672775
- Title: Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias
- Title(参考訳): 言語モデルによるジェンダー・クェア方言バイアスのハーモフ音声検出
- Authors: Rebecca Dorn, Lee Kezar, Fred Morstatter, Kristina Lerman,
- Abstract要約: 本研究では,ジェンダークェア方言の有害な音声分類におけるバイアスの存在について検討した。
LGBTQ+スラーの非退行的使用を実証する109個のテンプレートに基づく新しいデータセットであるQuierLexを紹介する。
筆者らは,これらのテキストの害評価において,市販の5つの言語モデルの性能を体系的に評価した。
- 参考スコア(独自算出の注目度): 8.168722337906148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content moderation on social media platforms shapes the dynamics of online discourse, influencing whose voices are amplified and whose are suppressed. Recent studies have raised concerns about the fairness of content moderation practices, particularly for aggressively flagging posts from transgender and non-binary individuals as toxic. In this study, we investigate the presence of bias in harmful speech classification of gender-queer dialect online, focusing specifically on the treatment of reclaimed slurs. We introduce a novel dataset, QueerReclaimLex, based on 109 curated templates exemplifying non-derogatory uses of LGBTQ+ slurs. Dataset instances are scored by gender-queer annotators for potential harm depending on additional context about speaker identity. We systematically evaluate the performance of five off-the-shelf language models in assessing the harm of these texts and explore the effectiveness of chain-of-thought prompting to teach large language models (LLMs) to leverage author identity context. We reveal a tendency for these models to inaccurately flag texts authored by gender-queer individuals as harmful. Strikingly, across all LLMs the performance is poorest for texts that show signs of being written by individuals targeted by the featured slur (F1 <= 0.24). We highlight an urgent need for fairness and inclusivity in content moderation systems. By uncovering these biases, this work aims to inform the development of more equitable content moderation practices and contribute to the creation of inclusive online spaces for all users.
- Abstract(参考訳): ソーシャルメディアプラットフォーム上でのコンテンツモデレーションは、音声が増幅され、抑圧されるものに影響を与えるオンライン談話のダイナミクスを形成する。
近年の研究では、コンテンツモデレーションの実践の公正性、特にトランスジェンダーや非バイナリーの投稿を有害と積極的にフラグ付けすることへの懸念が高まっている。
本研究では,オンラインでのジェンダークェア方言の有害な音声分類におけるバイアスの存在について検討し,特に再生スラリーの治療に焦点をあてた。
LGBTQ+スラーの非退行的使用を実証する109のテンプレートに基づいて,新しいデータセットであるQueerReclaimLexを導入する。
データセットのインスタンスは、話者のアイデンティティに関する追加のコンテキストに応じて、性的なアノテータによって潜在的な害についてスコアされる。
筆者らは,これらのテキストの害評価において,5つの既成言語モデルの性能を体系的に評価し,著者のアイデンティティ・コンテキストを活用するために,大規模言語モデル(LLM)の学習を促すチェーン・オブ・思想の有効性について検討した。
ジェンダークェアの個人によって書かれたテキストを有害として不正確なフラグを立てる傾向を明らかにした。
興味深いことに、全てのLLMにおいて、特徴のあるスラー(F1 <= 0.24)をターゲットとした個人によって書かれたことの兆候を示すテキストにとって、パフォーマンスは最も貧弱である。
コンテンツモデレーションシステムにおいて、公正性とインクリシティの緊急ニーズを強調します。
これらのバイアスを明らかにすることで、より公平なコンテンツモデレーションの実践の進展を知らせ、すべてのユーザに対する包括的オンラインスペースの作成に寄与することを目的としている。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Gender Bias in Text: Labeled Datasets and Lexicons [0.30458514384586394]
性別バイアスの自動検出には、性別バイアスデータセットと語彙の欠如がある。
関連文の収集,注釈付け,拡張によりラベル付きデータセットと網羅的辞書を提供する。
リリースされたデータセットとレキシコンは、Generic He、Generic She、Explicit Marking of Sex、Gendered Neologismsなど、複数のバイアスサブタイプにまたがっている。
論文 参考訳(メタデータ) (2022-01-21T12:44:51Z) - Text Style Transfer for Bias Mitigation using Masked Language Modeling [9.350763916068026]
本稿では,テキストデータを自動的にデバイアスするテキストスタイル転送モデルを提案する。
このモデルでは、潜在コンテンツエンコーディングと明示的なキーワード置換を組み合わせることで、そのような問題を解決する。
論文 参考訳(メタデータ) (2022-01-21T11:06:33Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Towards Equal Gender Representation in the Annotations of Toxic Language
Detection [6.129776019898014]
本研究では,男女の有毒度に対するコメントの注釈方法の違いについて検討する。
BERTモデルは、男性アノテーターによる攻撃的な言葉を含む有毒なコメントを連想させ、男性によって注釈付けされたとして67.7%の有毒なコメントを予測した。
本研究では、この男女差を、攻撃的な言葉と非常に有毒なコメントをトレーニングデータから取り除くことで軽減することができることを示す。
論文 参考訳(メタデータ) (2021-06-04T00:12:38Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。