論文の概要: Persona Setting Pitfall: Persistent Outgroup Biases in Large Language Models Arising from Social Identity Adoption
- arxiv url: http://arxiv.org/abs/2409.03843v1
- Date: Thu, 5 Sep 2024 18:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:40:07.730111
- Title: Persona Setting Pitfall: Persistent Outgroup Biases in Large Language Models Arising from Social Identity Adoption
- Title(参考訳): 社会的アイデンティティ導入に伴う大規模言語モデルにおける永続的外集団バイアス
- Authors: Wenchao Dong, Assem Zhunis, Dongyoung Jeong, Hyojin Chin, Jiyoung Han, Meeyoung Cha,
- Abstract要約: その結果,外集団偏見は内集団傾向と同じくらい強く現れることがわかった。
我々の研究結果は、より公平でバランスの取れた言語モデルを開発する可能性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 10.35915254696156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drawing parallels between human cognition and artificial intelligence, we explored how large language models (LLMs) internalize identities imposed by targeted prompts. Informed by Social Identity Theory, these identity assignments lead LLMs to distinguish between "we" (the ingroup) and "they" (the outgroup). This self-categorization generates both ingroup favoritism and outgroup bias. Nonetheless, existing literature has predominantly focused on ingroup favoritism, often overlooking outgroup bias, which is a fundamental source of intergroup prejudice and discrimination. Our experiment addresses this gap by demonstrating that outgroup bias manifests as strongly as ingroup favoritism. Furthermore, we successfully mitigated the inherent pro-liberal, anti-conservative bias in LLMs by guiding them to adopt the perspectives of the initially disfavored group. These results were replicated in the context of gender bias. Our findings highlight the potential to develop more equitable and balanced language models.
- Abstract(参考訳): 人間の認識と人工知能の類似性について,大規模言語モデル(LLM)がターゲットのプロンプトによって課されるアイデンティティを内在化する方法について検討した。
社会的アイデンティティ理論(Social Identity Theory)によって指示されたこれらのアイデンティティ割り当ては、LLMに"We"(内集団)と"they"(外集団)を区別させる。
この自己分類は、内集団の好意と外集団の偏見の両方を生じる。
それにもかかわらず、既存の文献は、主にグループ間の偏見と差別の根源である外集団バイアスを見落とし、グループ内での好意に焦点を当てている。
我々の実験は、外集団バイアスが内集団の好意のように強く現れることを示すことによって、このギャップに対処する。
さらに, 当初嫌われていた集団の視点を取り入れることによって, LLMの本来の自由主義的, 反保守的バイアスを緩和することに成功した。
これらの結果は男女差の文脈で再現された。
我々の研究結果は、より公平でバランスの取れた言語モデルを開発する可能性を浮き彫りにした。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Protected group bias and stereotypes in Large Language Models [2.1122940074160357]
本稿では,倫理と公正の領域におけるLarge Language Models(LLM)の振る舞いについて考察する。
マイノリティ化されたグループに偏見はありますが、特に性別やセクシュアリティの領域では、西洋の偏見も見られます。
論文 参考訳(メタデータ) (2024-03-21T00:21:38Z) - I Am Not Them: Fluid Identities and Persistent Out-group Bias in Large
Language Models [11.77633171656753]
我々は、西欧語(英語、ドイツ語、フランス語)と東欧語(中国語、日本語、韓国語)にまたがる文化的偏見-個人主義対集団主義-ChatGPTについて検討した。
ChatGPTが西洋語で個人主義的ペルソナを採用すると、その集団主義のスコア(つまり、グループ外値)はより否定的な傾向を示した。
逆に、東欧語で集団主義的ペルソナがChatGPTに割り当てられたとき、同様のパターンが出現し、個人主義に対するより否定的な反応(つまり、外集団の値)が現れた。
論文 参考訳(メタデータ) (2024-02-16T03:54:48Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Generative Language Models Exhibit Social Identity Biases [17.307292780517653]
56大言語モデルにおいて,内集団の連帯性と外集団の敵意,基本的社会的アイデンティティバイアスが存在するか否かを検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、明らかな非群陽性および非群陰性な関連を示す。
現代の言語モデルは,人間と同等の社会的アイデンティティバイアスを示すことが示唆された。
論文 参考訳(メタデータ) (2023-10-24T13:17:40Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。