論文の概要: Us-vs-Them bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.13699v1
- Date: Wed, 03 Dec 2025 07:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.751539
- Title: Us-vs-Them bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるUs-vs-themバイアス
- Authors: Tabia Tanzin Prama, Julia Witte Zimmerman, Christopher M. Danforth, Peter Sheridan Dodds,
- Abstract要約: 基礎的大言語モデル間で、一貫した内集団陽性および外集団陰性な関連を見いだす。
調査対象者は,保守的ペルソナは対人関係が強く,リベラルなペルソナは対人関係が強かった。
- 参考スコア(独自算出の注目度): 0.569978892646475
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates ``us versus them'' bias, as described by Social Identity Theory, in large language models (LLMs) under both default and persona-conditioned settings across multiple architectures (GPT-4.1, DeepSeek-3.1, Gemma-2.0, Grok-3.0, and LLaMA-3.1). Using sentiment dynamics, allotaxonometry, and embedding regression, we find consistent ingroup-positive and outgroup-negative associations across foundational LLMs. We find that adopting a persona systematically alters models' evaluative and affiliative language patterns. For the exemplar personas examined, conservative personas exhibit greater outgroup hostility, whereas liberal personas display stronger ingroup solidarity. Persona conditioning produces distinct clustering in embedding space and measurable semantic divergence, supporting the view that even abstract identity cues can shift models' linguistic behavior. Furthermore, outgroup-targeted prompts increased hostility bias by 1.19--21.76\% across models. These findings suggest that LLMs learn not only factual associations about social groups but also internalize and reproduce distinct ways of being, including attitudes, worldviews, and cognitive styles that are activated when enacting personas. We interpret these results as evidence of a multi-scale coupling between local context (e.g., the persona prompt), localizable representations (what the model ``knows''), and global cognitive tendencies (how it ``thinks''), which are at least reflected in the training data. Finally, we demonstrate ION, an ``us versus them'' bias mitigation approach using fine-tuning and direct preference optimization (DPO), which reduces sentiment divergence by up to 69\%, highlighting the potential for targeted mitigation strategies in future LLM development.
- Abstract(参考訳): 本研究は,複数アーキテクチャ(GPT-4.1, DeepSeek-3.1, Gemma-2.0, Grok-3.0, LLaMA-3.1)にわたる大規模言語モデル(LLM)における「us vs them」バイアスについて検討した。
感情力学,アロタキソメトリー,埋め込み回帰を用いて,基礎的LLM間の一貫した内集団陽性および外集団陰性な関連を見出した。
ペルソナの採用は、モデルの評価的・アフィリエイト的な言語パターンを体系的に変更することを発見した。
一方,保守的な人格は対人関係が強く,リベラルな人格は対人関係が強かった。
ペルソナ条件付け(ペルソナ条件付け)は、埋め込み空間と測定可能な意味的分岐において異なるクラスタリングを生成し、抽象的なアイデンティティの手がかりでさえモデルの言語的振る舞いを変えることができるという見解をサポートする。
さらに、アウトグループターゲットは、モデル間での敵意バイアスを1.19--21.76\%増加させる。
これらの結果から, LLMは, 社会的集団に関する事実的関連だけでなく, 人格の制定時に活性化される態度, 世界観, 認知スタイルなど, 異なる行動様式を内在化し, 再現するものであることが示唆された。
これらの結果は、少なくともトレーニングデータに反映される局所的文脈(例えば、ペルソナプロンプト)、局所化可能な表現(「知識」モデル)とグローバル認知傾向(「思考」モデル)のマルチスケール結合の証拠として解釈する。
最後に、微調整と直接選好最適化(DPO)を用いた「us vs them」のバイアス緩和手法であるIONを実証し、感情の偏りを最大69\%減少させ、将来のLLM開発における目標緩和戦略の可能性を強調した。
関連論文リスト
- Deep Binding of Language Model Virtual Personas: a Study on Approximating Political Partisan Misperceptions [13.929713456538932]
本稿では,マルチターンインタビュー文として生成した合成ユーザ"バックストリー"を用いた仮想ペルソナ構築手法を提案する。
本研究の背景には,ヒトの反応分布を忠実に再現した仮想的ペルソナと,グループ内・グループ外バイアスのオリジナルの研究で観察されたものと密に一致した効果の大きさが示されている。
論文 参考訳(メタデータ) (2025-04-16T00:10:34Z) - Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models [66.5536396328527]
LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。
ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。
本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
論文 参考訳(メタデータ) (2025-04-10T14:23:06Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。