論文の概要: I Am Not Them: Fluid Identities and Persistent Out-group Bias in Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.10436v1
- Date: Fri, 16 Feb 2024 03:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:30:18.200933
- Title: I Am Not Them: Fluid Identities and Persistent Out-group Bias in Large
Language Models
- Title(参考訳): 私は彼らではない:大規模言語モデルにおける流動的アイデンティティと永続的外部バイアス
- Authors: Wenchao Dong, Assem Zhunis, Hyojin Chin, Jiyoung Han, Meeyoung Cha
- Abstract要約: 我々は、西欧語(英語、ドイツ語、フランス語)と東欧語(中国語、日本語、韓国語)にまたがる文化的偏見-個人主義対集団主義-ChatGPTについて検討した。
ChatGPTが西洋語で個人主義的ペルソナを採用すると、その集団主義のスコア(つまり、グループ外値)はより否定的な傾向を示した。
逆に、東欧語で集団主義的ペルソナがChatGPTに割り当てられたとき、同様のパターンが出現し、個人主義に対するより否定的な反応(つまり、外集団の値)が現れた。
- 参考スコア(独自算出の注目度): 11.77633171656753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explored cultural biases-individualism vs. collectivism-in ChatGPT across
three Western languages (i.e., English, German, and French) and three Eastern
languages (i.e., Chinese, Japanese, and Korean). When ChatGPT adopted an
individualistic persona in Western languages, its collectivism scores (i.e.,
out-group values) exhibited a more negative trend, surpassing their positive
orientation towards individualism (i.e., in-group values). Conversely, when a
collectivistic persona was assigned to ChatGPT in Eastern languages, a similar
pattern emerged with more negative responses toward individualism (i.e.,
out-group values) as compared to collectivism (i.e., in-group values). The
results indicate that when imbued with a particular social identity, ChatGPT
discerns in-group and out-group, embracing in-group values while eschewing
out-group values. Notably, the negativity towards the out-group, from which
prejudices and discrimination arise, exceeded the positivity towards the
in-group. The experiment was replicated in the political domain, and the
results remained consistent. Furthermore, this replication unveiled an
intrinsic Democratic bias in Large Language Models (LLMs), aligning with
earlier findings and providing integral insights into mitigating such bias
through prompt engineering. Extensive robustness checks were performed using
varying hyperparameter and persona setup methods, with or without social
identity labels, across other popular language models.
- Abstract(参考訳): 西洋の3つの言語(英語,ドイツ語,フランス語)と東部の3つの言語(中国語,日本語,韓国語)にまたがる文化バイアス-個人主義と集合主義-in chatgptについて検討した。
ChatGPTが西洋語で個人主義的ペルソナを採用したとき、その集団主義のスコア(つまり、グループ外値)はよりネガティブな傾向を示し、個人主義に対する肯定的な志向(すなわち、グループ内値)を超えた。
逆に、東方語のチャットgptに集合主義的なペルソナが割り当てられると、類似したパターンは、集合主義(すなわち、集団内値)と比較して個人主義(すなわち、集団外値)に対してより否定的な反応を示した。
以上の結果から,ChatGPTはグループ内とグループ外を識別し,グループ内とグループ外を区別する。
特に、偏見や差別が発生する外集団に対する否定性は、内集団に対する肯定性を上回った。
実験は政治的領域で再現され、結果は一貫していた。
さらに、この複製は、大規模な言語モデル(llm)に内在する民主的バイアスを明らかにし、以前の発見と一致し、プロンプトエンジニアリングによるバイアス緩和に関する洞察を与える。
様々なハイパーパラメータとペルソナ設定手法を用いて、社会的アイデンティティラベルの有無に関わらず、他の一般的な言語モデルに対して広範なロバスト性チェックを行った。
関連論文リスト
- Persona Setting Pitfall: Persistent Outgroup Biases in Large Language Models Arising from Social Identity Adoption [10.35915254696156]
その結果,外集団偏見は内集団傾向と同じくらい強く現れることがわかった。
我々の研究結果は、より公平でバランスの取れた言語モデルを開発する可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-05T18:08:47Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Large Language Models Portray Socially Subordinate Groups as More Homogeneous, Consistent with a Bias Observed in Humans [0.30723404270319693]
大規模言語モデル(LLM)における新しい形式のバイアスについて検討する。
チャットGPTはアフリカ系アメリカ人、アジア系アメリカ人、ヒスパニック系アメリカ人を白人よりも同質であると表現した。
グループを多様性の低いリスクとして表現する傾向は、ステレオタイプや差別行動に永続する傾向があると論じる。
論文 参考訳(メタデータ) (2024-01-16T16:52:00Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Generative Language Models Exhibit Social Identity Biases [17.307292780517653]
56大言語モデルにおいて,内集団の連帯性と外集団の敵意,基本的社会的アイデンティティバイアスが存在するか否かを検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、明らかな非群陽性および非群陰性な関連を示す。
現代の言語モデルは,人間と同等の社会的アイデンティティバイアスを示すことが示唆された。
論文 参考訳(メタデータ) (2023-10-24T13:17:40Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。