論文の概要: Protected group bias and stereotypes in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.14727v1
- Date: Thu, 21 Mar 2024 00:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 21:21:55.264444
- Title: Protected group bias and stereotypes in Large Language Models
- Title(参考訳): 大規模言語モデルにおける保護群バイアスとステレオタイプ
- Authors: Hadas Kotek, David Q. Sun, Zidi Xiu, Margit Bowler, Christopher Klein,
- Abstract要約: 本稿では,倫理と公正の領域におけるLarge Language Models(LLM)の振る舞いについて考察する。
マイノリティ化されたグループに偏見はありますが、特に性別やセクシュアリティの領域では、西洋の偏見も見られます。
- 参考スコア(独自算出の注目度): 2.1122940074160357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As modern Large Language Models (LLMs) shatter many state-of-the-art benchmarks in a variety of domains, this paper investigates their behavior in the domains of ethics and fairness, focusing on protected group bias. We conduct a two-part study: first, we solicit sentence continuations describing the occupations of individuals from different protected groups, including gender, sexuality, religion, and race. Second, we have the model generate stories about individuals who hold different types of occupations. We collect >10k sentence completions made by a publicly available LLM, which we subject to human annotation. We find bias across minoritized groups, but in particular in the domains of gender and sexuality, as well as Western bias, in model generations. The model not only reflects societal biases, but appears to amplify them. The model is additionally overly cautious in replies to queries relating to minoritized groups, providing responses that strongly emphasize diversity and equity to an extent that other group characteristics are overshadowed. This suggests that artificially constraining potentially harmful outputs may itself lead to harm, and should be applied in a careful and controlled manner.
- Abstract(参考訳): 現代大規模言語モデル (LLM) が様々な領域で多くの最先端のベンチマークを破り、倫理と公正の領域におけるそれらの振る舞いを、保護された集団バイアスに焦点をあてて調査する。
まず、ジェンダー、セクシュアリティ、宗教、人種など、異なる保護されたグループからの個人の職業を記述した文の継続を要請する。
第2に、異なるタイプの職業を持つ個人について、モデルが物語を生成する。
一般に公開されているLCMで作成した10k以上の文の完成度を収集し,人間のアノテーションを付与する。
マイノリティ化されたグループ間で偏見が見られますが、特にモデル世代では、性別やセクシュアリティの領域や西洋の偏見が見られます。
このモデルは社会的バイアスを反映するだけでなく、それらを増幅するように見える。
このモデルは、マイノリティ化されたグループに関するクエリに対する応答に過度に慎重であり、他のグループの特性が過度に隠されている程度に多様性と株式を強く強調する応答を提供する。
これは、潜在的に有害な出力を人為的に制限することは、それ自体に害をもたらす可能性があり、慎重に制御された方法で適用されるべきであることを示している。
関連論文リスト
- The Male CEO and the Female Assistant: Probing Gender Biases in
Text-To-Image Models Through Paired Stereotype Test [68.84245853250906]
DALLE-3のような最近の大規模テキスト・ツー・イメージ(T2I)モデルは、新しいアプリケーションにおいて大きな可能性を秘めているが、前例のない公平さの課題に直面している。
本稿では,Paired Stereotype Test (PST) のバイアス評価フレームワークを提案する。
以上の結果から,現代T2Iモデルにおける男女差の複雑なパターンが明らかとなり,マルチモーダル生成システムにおける批判的公平性の課題が浮き彫りになった。
論文 参考訳(メタデータ) (2024-02-16T21:32:27Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Generative Language Models Exhibit Social Identity Biases [18.175179449419787]
我々は,51大言語モデルにおいて,社会科学の基本的な社会的バイアスである,集団内連帯性と集団外連帯性について検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、グループ内陽性およびグループ外陰性バイアスが明らかになる。
論文 参考訳(メタデータ) (2023-10-24T13:17:40Z) - Fairness in AI Systems: Mitigating gender bias from language-vision
models [0.913755431537592]
既存のデータセットにおける性別バイアスの影響について検討する。
本稿では,キャプションに基づく言語視覚モデルにおけるその影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2023-05-03T04:33:44Z) - MultiModal Bias: Introducing a Framework for Stereotypical Bias
Assessment beyond Gender and Race in Vision Language Models [40.12132844347926]
MMBiasと呼ばれる視覚的およびテキスト的バイアスベンチマークを提供し、約3,800の画像と14のサブグループをカバーするフレーズからなる。
このデータセットを用いて、CLIP、ALBEF、VLTを含むいくつかの著名な自己監督型マルチモーダルモデルにおけるバイアスを評価する。
バイアスを緩和するための後処理ステップとして適用可能な,大規模な事前学習モデルに特化して設計されたデバイアス処理手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:36:37Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z) - CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked
Language Models [30.582132471411263]
Crowd Stereotype Pairsベンチマーク(CrowS-Pairs)を紹介する。
CrowS-Pairsには1508の例があり、人種、宗教、年齢など9種類の偏見を扱うステレオタイプをカバーしている。
その結果, CrowS-Pairs の各カテゴリーにおいて, 広く使われている3つの文のすべてが, 実質的にステレオタイプを好んでいることがわかった。
論文 参考訳(メタデータ) (2020-09-30T22:38:40Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。