論文の概要: "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation
- arxiv url: http://arxiv.org/abs/2305.09941v2
- Date: Thu, 18 May 2023 00:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 10:36:06.874877
- Title: "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation
- Title(参考訳): 『i'm full who i am』 : オープン言語生成におけるバイアスを測定するためにトランスジェンダーとノンバイナリの声を中心に
- Authors: Anaelia Ovalle, Palash Goyal, Jwala Dhamala, Zachary Jaggers, Kai-Wei
Chang, Aram Galstyan, Richard Zemel, Rahul Gupta
- Abstract要約: トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
我々は、オープン言語生成(OLG)において、TGNB人による疎外化を取り巻く社会的現実がいかに貢献し、持続するかを評価する。
我々は,TGNB指向のコミュニティ内で,現実のテキストからキュレートされたテンプレートベースのテキストからなるTANGOデータセットを紹介する。
- 参考スコア(独自算出の注目度): 69.25368160338043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transgender and non-binary (TGNB) individuals disproportionately experience
discrimination and exclusion from daily life. Given the recent popularity and
adoption of language generation technologies, the potential to further
marginalize this population only grows. Although a multitude of NLP fairness
literature focuses on illuminating and addressing gender biases, assessing
gender harms for TGNB identities requires understanding how such identities
uniquely interact with societal gender norms and how they differ from gender
binary-centric perspectives. Such measurement frameworks inherently require
centering TGNB voices to help guide the alignment between gender-inclusive NLP
and whom they are intended to serve. Towards this goal, we ground our work in
the TGNB community and existing interdisciplinary literature to assess how the
social reality surrounding experienced marginalization by TGNB persons
contributes to and persists within Open Language Generation (OLG). By first
understanding their marginalization stressors, we evaluate (1) misgendering and
(2) harmful responses to gender disclosure. To do this, we introduce the TANGO
dataset, comprising of template-based text curated from real-world text within
a TGNB-oriented community. We discover a dominance of binary gender norms
within the models; LLMs least misgendered subjects in generated text when
triggered by prompts whose subjects used binary pronouns. Meanwhile,
misgendering was most prevalent when triggering generation with singular they
and neopronouns. When prompted with gender disclosures, LLM text contained
stigmatizing language and scored most toxic when triggered by TGNB gender
disclosure. Our findings warrant further research on how TGNB harms manifest in
LLMs and serve as a broader case study toward concretely grounding the design
of gender-inclusive AI in community voices and interdisciplinary literature.
- Abstract(参考訳): トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
近年の言語生成技術の普及と普及を考えると、この人口のさらなる疎外化の可能性は増大するのみである。
NLPフェアネスの文献は、性別バイアスの照明と対処に焦点を当てているが、TGNBのアイデンティティに対する性別の害を評価するには、そのようなアイデンティティが社会的性規範とどのように一意に相互作用するか、そしてそれらがジェンダーバイナリ中心の視点とどのように異なるかを理解する必要がある。
このような測定フレームワークは本質的には、ジェンダー非包摂的NLPと彼らが誰に仕えるかの調整を支援するために、中心的なTGNB音声を必要とする。
この目標に向けて、我々はTGNBのコミュニティと既存の学際文献を基盤として、TGNBの人々が経験した限界化を取り巻く社会的現実がオープン言語生成(OLG)にどのように貢献し、持続するかを評価する。
まず, 限界化ストレス因子をまず理解することにより, 1) 性別の誤認と(2) 性開示に対する有害な反応を評価する。
そこで本研究では,TGNB 指向のコミュニティ内で,現実のテキストからキュレートされたテンプレートベースのテキストからなる TANGO データセットを提案する。
モデル内では二項代名詞が支配的であり,二項代名詞を用いたプロンプトをきっかけに,LLMは生成したテキストの中で最少の男女が生成される。
一方,singular theyとneopronounsで発生をトリガーする場合,ミスジェネレーションが最も一般的であった。
LLMのテキストには、性別の開示をきっかけに、スティグマティゼーション言語が含まれ、TGNBの性別の開示によって最も有毒になった。
我々の研究は、TLMにおけるTGNBの有害性に関するさらなる研究を保証し、コミュニティ音声や学際文学におけるジェンダー非包括的AIの設計を具体化するための幅広いケーススタディとして役立っている。
関連論文リスト
- Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - ''Fifty Shades of Bias'': Normative Ratings of Gender Bias in GPT
Generated English Text [11.085070600065801]
言語は、社会的信念システムの顕在化のための強力なツールとして機能する。
ジェンダーバイアスは、私たちの社会でもっとも普及しているバイアスの1つです。
我々は、GPT生成した英語テキストの最初のデータセットを作成し、男女バイアスの規範的評価を行う。
論文 参考訳(メタデータ) (2023-10-26T14:34:06Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - Towards Understanding Gender-Seniority Compound Bias in Natural Language
Generation [64.65911758042914]
本研究では,事前学習したニューラルジェネレーションモデルにおける性別バイアスの程度に,高齢者がどのような影響を及ぼすかを検討する。
以上の結果から, GPT-2は, 両領域において, 女性を中年, 男性を中年として考えることにより, 偏見を増幅することが示された。
以上の結果から, GPT-2を用いて構築したNLPアプリケーションは, プロの能力において女性に害を与える可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:05:02Z) - Theories of "Gender" in NLP Bias Research [0.0]
NLPにおけるジェンダーバイアスに関する200近い記事を調査した。
記事の大多数は、性別に関する理論を明示していない。
多くの人は、トランス、ノンバイナリ、インターセックスの人々の存在と経験を無視した方法で、性の特徴、社会的性別、言語性について説明している。
論文 参考訳(メタデータ) (2022-05-05T09:20:53Z) - Gender Bias in Text: Labeled Datasets and Lexicons [0.30458514384586394]
性別バイアスの自動検出には、性別バイアスデータセットと語彙の欠如がある。
関連文の収集,注釈付け,拡張によりラベル付きデータセットと網羅的辞書を提供する。
リリースされたデータセットとレキシコンは、Generic He、Generic She、Explicit Marking of Sex、Gendered Neologismsなど、複数のバイアスサブタイプにまたがっている。
論文 参考訳(メタデータ) (2022-01-21T12:44:51Z) - Harms of Gender Exclusivity and Challenges in Non-Binary Representation
in Language Technologies [30.096268927587214]
性別と言語の複雑さについて説明する。
性別を二分体として扱うことに伴う被害を理解するために、非二分体を調査する。
論文 参考訳(メタデータ) (2021-08-27T01:58:58Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。