論文の概要: Generative Language Models Exhibit Social Identity Biases
- arxiv url: http://arxiv.org/abs/2310.15819v1
- Date: Tue, 24 Oct 2023 13:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:40:43.333480
- Title: Generative Language Models Exhibit Social Identity Biases
- Title(参考訳): 社会的アイデンティティバイアスを示す生成言語モデル
- Authors: Tiancheng Hu, Yara Kyrychenko, Steve Rathje, Nigel Collier, Sander van
der Linden, Jon Roozenbeek
- Abstract要約: 我々は,51大言語モデルにおいて,社会科学の基本的な社会的バイアスである,集団内連帯性と集団外連帯性について検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、グループ内陽性およびグループ外陰性バイアスが明らかになる。
- 参考スコア(独自算出の注目度): 18.175179449419787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge in popularity of large language models has given rise to concerns
about biases that these models could learn from humans. In this study, we
investigate whether ingroup solidarity and outgroup hostility, fundamental
social biases known from social science, are present in 51 large language
models. We find that almost all foundational language models and some
instruction fine-tuned models exhibit clear ingroup-positive and
outgroup-negative biases when prompted to complete sentences (e.g., "We
are..."). A comparison of LLM-generated sentences with human-written sentences
on the internet reveals that these models exhibit similar level, if not
greater, levels of bias than human text. To investigate where these biases stem
from, we experimentally varied the amount of ingroup-positive or
outgroup-negative sentences the model was exposed to during fine-tuning in the
context of the United States Democrat-Republican divide. Doing so resulted in
the models exhibiting a marked increase in ingroup solidarity and an even
greater increase in outgroup hostility. Furthermore, removing either
ingroup-positive or outgroup-negative sentences (or both) from the fine-tuning
data leads to a significant reduction in both ingroup solidarity and outgroup
hostility, suggesting that biases can be reduced by removing biased training
data. Our findings suggest that modern language models exhibit fundamental
social identity biases and that such biases can be mitigated by curating
training data. Our results have practical implications for creating less biased
large-language models and further underscore the need for more research into
user interactions with LLMs to prevent potential bias reinforcement in humans.
- Abstract(参考訳): 大規模言語モデルの人気の高まりは、これらのモデルが人間から学べるバイアスに対する懸念を引き起こした。
本研究では,51大言語モデルに内集団連帯性と外集団敵意,社会科学の基本的な社会的バイアスが存在するかを検討する。
ほとんどすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促されたとき(例えば、「我々は...」など)、明らかな非群正および外集団負のバイアスを示す。
LLM生成文とインターネット上の人書き文を比較すると、これらのモデルが人間のテキストと同等のバイアスレベルを示していることが分かる。
これらのバイアスがどこから発生したのかを調べるために,米国民主党・共和党の分断の文脈で,モデルが微調整中に露呈した非グループ陽性または非グループ陰性の文の量を実験的に変化させた。
その結果,モデルでは,グループ内連帯の著しい増加と,グループ外敵性の増加がみられた。
さらに、微調整データから非群陽性または非群陰性の文(または両方)を削除すると、非群連帯と非群敵性の両方が著しく減少し、偏りのあるトレーニングデータを削除することでバイアスを低減できることが示唆される。
以上より,現代言語モデルは基本的な社会的アイデンティティバイアスを示し,そのバイアスをトレーニングデータのキュレーションによって軽減できることが示唆された。
以上の結果から, バイアスの少ない大規模言語モデルの作成や, ヒトのバイアス強化を防止すべく, llmとのユーザインタラクションに関するさらなる研究の必要性を浮き彫りにした。
関連論文リスト
- I Am Not Them: Fluid Identities and Persistent Out-group Bias in Large
Language Models [11.77633171656753]
我々は、西欧語(英語、ドイツ語、フランス語)と東欧語(中国語、日本語、韓国語)にまたがる文化的偏見-個人主義対集団主義-ChatGPTについて検討した。
ChatGPTが西洋語で個人主義的ペルソナを採用すると、その集団主義のスコア(つまり、グループ外値)はより否定的な傾向を示した。
逆に、東欧語で集団主義的ペルソナがChatGPTに割り当てられたとき、同様のパターンが出現し、個人主義に対するより否定的な反応(つまり、外集団の値)が現れた。
論文 参考訳(メタデータ) (2024-02-16T03:54:48Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - MultiModal Bias: Introducing a Framework for Stereotypical Bias
Assessment beyond Gender and Race in Vision Language Models [40.12132844347926]
MMBiasと呼ばれる視覚的およびテキスト的バイアスベンチマークを提供し、約3,800の画像と14のサブグループをカバーするフレーズからなる。
このデータセットを用いて、CLIP、ALBEF、VLTを含むいくつかの著名な自己監督型マルチモーダルモデルにおけるバイアスを評価する。
バイアスを緩和するための後処理ステップとして適用可能な,大規模な事前学習モデルに特化して設計されたデバイアス処理手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:36:37Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。