論文の概要: Generative Language Models Exhibit Social Identity Biases
- arxiv url: http://arxiv.org/abs/2310.15819v1
- Date: Tue, 24 Oct 2023 13:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:40:43.333480
- Title: Generative Language Models Exhibit Social Identity Biases
- Title(参考訳): 社会的アイデンティティバイアスを示す生成言語モデル
- Authors: Tiancheng Hu, Yara Kyrychenko, Steve Rathje, Nigel Collier, Sander van
der Linden, Jon Roozenbeek
- Abstract要約: 我々は,51大言語モデルにおいて,社会科学の基本的な社会的バイアスである,集団内連帯性と集団外連帯性について検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、グループ内陽性およびグループ外陰性バイアスが明らかになる。
- 参考スコア(独自算出の注目度): 18.175179449419787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge in popularity of large language models has given rise to concerns
about biases that these models could learn from humans. In this study, we
investigate whether ingroup solidarity and outgroup hostility, fundamental
social biases known from social science, are present in 51 large language
models. We find that almost all foundational language models and some
instruction fine-tuned models exhibit clear ingroup-positive and
outgroup-negative biases when prompted to complete sentences (e.g., "We
are..."). A comparison of LLM-generated sentences with human-written sentences
on the internet reveals that these models exhibit similar level, if not
greater, levels of bias than human text. To investigate where these biases stem
from, we experimentally varied the amount of ingroup-positive or
outgroup-negative sentences the model was exposed to during fine-tuning in the
context of the United States Democrat-Republican divide. Doing so resulted in
the models exhibiting a marked increase in ingroup solidarity and an even
greater increase in outgroup hostility. Furthermore, removing either
ingroup-positive or outgroup-negative sentences (or both) from the fine-tuning
data leads to a significant reduction in both ingroup solidarity and outgroup
hostility, suggesting that biases can be reduced by removing biased training
data. Our findings suggest that modern language models exhibit fundamental
social identity biases and that such biases can be mitigated by curating
training data. Our results have practical implications for creating less biased
large-language models and further underscore the need for more research into
user interactions with LLMs to prevent potential bias reinforcement in humans.
- Abstract(参考訳): 大規模言語モデルの人気の高まりは、これらのモデルが人間から学べるバイアスに対する懸念を引き起こした。
本研究では,51大言語モデルに内集団連帯性と外集団敵意,社会科学の基本的な社会的バイアスが存在するかを検討する。
ほとんどすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促されたとき(例えば、「我々は...」など)、明らかな非群正および外集団負のバイアスを示す。
LLM生成文とインターネット上の人書き文を比較すると、これらのモデルが人間のテキストと同等のバイアスレベルを示していることが分かる。
これらのバイアスがどこから発生したのかを調べるために,米国民主党・共和党の分断の文脈で,モデルが微調整中に露呈した非グループ陽性または非グループ陰性の文の量を実験的に変化させた。
その結果,モデルでは,グループ内連帯の著しい増加と,グループ外敵性の増加がみられた。
さらに、微調整データから非群陽性または非群陰性の文(または両方)を削除すると、非群連帯と非群敵性の両方が著しく減少し、偏りのあるトレーニングデータを削除することでバイアスを低減できることが示唆される。
以上より,現代言語モデルは基本的な社会的アイデンティティバイアスを示し,そのバイアスをトレーニングデータのキュレーションによって軽減できることが示唆された。
以上の結果から, バイアスの少ない大規模言語モデルの作成や, ヒトのバイアス強化を防止すべく, llmとのユーザインタラクションに関するさらなる研究の必要性を浮き彫りにした。
関連論文リスト
- Persona Setting Pitfall: Persistent Outgroup Biases in Large Language Models Arising from Social Identity Adoption [10.35915254696156]
その結果,外集団偏見は内集団傾向と同じくらい強く現れることがわかった。
我々の研究結果は、より公平でバランスの取れた言語モデルを開発する可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-05T18:08:47Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。