論文の概要: Laissez-Faire Harms: Algorithmic Biases in Generative Language Models
- arxiv url: http://arxiv.org/abs/2404.07475v2
- Date: Tue, 16 Apr 2024 04:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 11:52:13.135191
- Title: Laissez-Faire Harms: Algorithmic Biases in Generative Language Models
- Title(参考訳): Laissez-Faire Harms: 生成言語モデルにおけるアルゴリズム的バイアス
- Authors: Evan Shieh, Faye-Marie Vassel, Cassidy Sugimoto, Thema Monroe-White,
- Abstract要約: そこで本研究では,最も広範に普及しているLMの5つのテキストから合成されたテキストが,未成年者に対する脱落,従属化,ステレオタイピングの被害を永久に及ぼしていることを示す。
我々は、そのような個人が、LM生成出力に遭遇する確率が数百から数千倍にも達するほど、偏見の証拠が広範囲にあることを発見した。
本研究は,言語モデルによる差別的被害から消費者を守るための緊急の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid deployment of generative language models (LMs) has raised concerns about social biases affecting the well-being of diverse consumers. The extant literature on generative LMs has primarily examined bias via explicit identity prompting. However, prior research on bias in earlier language-based technology platforms, including search engines, has shown that discrimination can occur even when identity terms are not specified explicitly. Studies of bias in LM responses to open-ended prompts (where identity classifications are left unspecified) are lacking and have not yet been grounded in end-consumer harms. Here, we advance studies of generative LM bias by considering a broader set of natural use cases via open-ended prompting. In this "laissez-faire" setting, we find that synthetically generated texts from five of the most pervasive LMs (ChatGPT3.5, ChatGPT4, Claude2.0, Llama2, and PaLM2) perpetuate harms of omission, subordination, and stereotyping for minoritized individuals with intersectional race, gender, and/or sexual orientation identities (AI/AN, Asian, Black, Latine, MENA, NH/PI, Female, Non-binary, Queer). We find widespread evidence of bias to an extent that such individuals are hundreds to thousands of times more likely to encounter LM-generated outputs that portray their identities in a subordinated manner compared to representative or empowering portrayals. We also document a prevalence of stereotypes (e.g. perpetual foreigner) in LM-generated outputs that are known to trigger psychological harms that disproportionately affect minoritized individuals. These include stereotype threat, which leads to impaired cognitive performance and increased negative self-perception. Our findings highlight the urgent need to protect consumers from discriminatory harms caused by language models and invest in critical AI education programs tailored towards empowering diverse consumers.
- Abstract(参考訳): 生成言語モデル(LM)の迅速な展開は、多様な消費者の幸福に影響を及ぼす社会的バイアスに関する懸念を提起している。
生成的LMに関する現存する文献は、明示的なアイデンティティープロンプトを通じて主に偏見を調査している。
しかし、検索エンジンを含む初期の言語ベースの技術プラットフォームにおける偏見に関する先行研究により、識別項が明示的に指定されていない場合でも差別が発生することが示されている。
オープンエンドプロンプトに対するLM応答のバイアスの研究(アイデンティティ分類が未特定のままである)は欠如しており、まだエンド消費者の害に基づいていない。
そこで本研究では,オープン・エンド・プロンプトにより,より広い範囲の自然利用事例を考慮し,生成的LMバイアスの研究を進めた。
この"laissez-faire"設定では、最も普及しているLM(ChatGPT3.5, ChatGPT4, Claude2.0, Llama2, PaLM2)の5つのテキストから合成されたテキストが、交差する人種、性別、/または性的指向のアイデンティティ(AI/AN, Asian, Black, Latine, MENA, NH/PI, female, Non-binary, Queer)を持つ未成年者に対する欠落、従属、およびステレオタイピングの害を恒久的に受けていることが分かる。
このような個人が、代表者や権限を持つ人物と比較して、従属的な方法で自身のアイデンティティを表現するLM生成出力に遭遇する確率が、数百から数千倍にも達するほど、偏見の証拠が広く見られる。
また,未成年者に対して不均等に影響を及ぼす心理的障害を引き起こすことが知られているLM出力のステレオタイプ(eg perpetual foreigner)の頻度も記録する。
ステレオタイプ脅威は認知能力の低下と負の自己知覚の増大につながる。
われわれの調査結果は、言語モデルによる差別的被害から消費者を守るための緊急の必要性を強調し、多様な消費者を力づけるための重要なAI教育プログラムに投資している。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - QueerBench: Quantifying Discrimination in Language Models Toward Queer Identities [4.82206141686275]
我々は、LGBTQIA+の個人に関する英語大言語モデルによって生成された文の完成によって引き起こされる潜在的害を評価する。
この分析は、大きな言語モデルはLGBTQIA+コミュニティ内の個人に対してより頻繁に差別的行動を示す傾向があることを示している。
論文 参考訳(メタデータ) (2024-06-18T08:40:29Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Protected group bias and stereotypes in Large Language Models [2.1122940074160357]
本稿では,倫理と公正の領域におけるLarge Language Models(LLM)の振る舞いについて考察する。
マイノリティ化されたグループに偏見はありますが、特に性別やセクシュアリティの領域では、西洋の偏見も見られます。
論文 参考訳(メタデータ) (2024-03-21T00:21:38Z) - Generalizing Fairness to Generative Language Models via Reformulation of Non-discrimination Criteria [4.738231680800414]
本稿では、生成言語モデルにおけるジェンダーバイアスの存在を解明し、定量化する方法について研究する。
我々は、独立性、分離性、充足性という3つのよく知られた非識別基準のジェネレーティブAIアナログを導出する。
本研究は,このような対話型言語モデルにおける職業性バイアスの存在に対処するものである。
論文 参考訳(メタデータ) (2024-03-13T14:19:08Z) - Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文 参考訳(メタデータ) (2023-05-29T16:29:22Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。