論文の概要: Breaking Bias, Building Bridges: Evaluation and Mitigation of Social Biases in LLMs via Contact Hypothesis
- arxiv url: http://arxiv.org/abs/2407.02030v1
- Date: Tue, 2 Jul 2024 07:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:24:25.251078
- Title: Breaking Bias, Building Bridges: Evaluation and Mitigation of Social Biases in LLMs via Contact Hypothesis
- Title(参考訳): 橋梁の破断性:接触仮説によるLCMにおける社会的バイアスの評価と緩和
- Authors: Chahat Raj, Anjishnu Mukherjee, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、訓練データに偏見を反映し、社会的ステレオタイプや不平等を補強する社会バイアスを持続させる。
本稿では,これらのモデルにプロンプトに対する非バイアス応答を付与する独自のデバイアス処理手法であるSocial Contact Debiasing(SCD)を提案する。
我々の研究は、LLM応答が接触探究の際の社会的バイアスを示すことを示したが、より重要なことは、これらのバイアスは、SCD戦略に従ってLLaMA 2を指導する1つの時代において、最大40%減少させることができることである。
- 参考スコア(独自算出の注目度): 23.329280888159744
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) perpetuate social biases, reflecting prejudices in their training data and reinforcing societal stereotypes and inequalities. Our work explores the potential of the Contact Hypothesis, a concept from social psychology for debiasing LLMs. We simulate various forms of social contact through LLM prompting to measure their influence on the model's biases, mirroring how intergroup interactions can reduce prejudices in social contexts. We create a dataset of 108,000 prompts following a principled approach replicating social contact to measure biases in three LLMs (LLaMA 2, Tulu, and NousHermes) across 13 social bias dimensions. We propose a unique debiasing technique, Social Contact Debiasing (SCD), that instruction-tunes these models with unbiased responses to prompts. Our research demonstrates that LLM responses exhibit social biases when subject to contact probing, but more importantly, these biases can be significantly reduced by up to 40% in 1 epoch of instruction tuning LLaMA 2 following our SCD strategy. Our code and data are available at https://github.com/chahatraj/breakingbias.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練データに偏見を反映し、社会的ステレオタイプや不平等を補強する社会バイアスを持続させる。
我々の研究は、LLMを嫌悪する社会心理学の概念であるコンタクト仮説の可能性を探求する。
LLMを通して様々な形の社会接触をシミュレートし、モデルのバイアスに与える影響を計測し、集団間相互作用が社会的文脈における偏見を減らし得るかを反映する。
我々は、13の社会的バイアス次元にわたる3つのLLM(LLaMA, Tulu, NousHermes)におけるバイアスを測定するために、社会的接触を複製する原則的なアプローチに従って、108,000のプロンプトのデータセットを作成する。
本稿では,これらのモデルにプロンプトに対する非バイアス応答を付与する独自のデバイアス処理手法であるSocial Contact Debiasing(SCD)を提案する。
我々の研究は、LLM応答が接触探究の際の社会的バイアスを示すことを示したが、より重要なことは、これらのバイアスは、SCD戦略に従ってLLaMA 2を指導する1つの時代において、最大40%減少させることができることである。
私たちのコードとデータはhttps://github.com/chahatraj/breakingbias.comで公開されています。
関連論文リスト
- Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - Are Social Sentiments Inherent in LLMs? An Empirical Study on Extraction of Inter-demographic Sentiments [14.143299702954023]
本研究は、国籍、宗教、人種・民族の観点で定義された社会集団に焦点を当てる。
我々は、あるグループから別のグループへの感情に関する質問をLSMに入力し、反応に感情分析を適用し、その結果を社会調査と比較する。
論文 参考訳(メタデータ) (2024-08-08T08:13:25Z) - Ask LLMs Directly, "What shapes your bias?": Measuring Social Bias in Large Language Models [11.132360309354782]
社会的偏見は、様々な人口統計学的アイデンティティを対象とする社会的認識の蓄積によって形成される。
本研究では,社会的知覚を直感的に定量化し,大規模言語モデルにおける社会的バイアスを評価する指標を提案する。
論文 参考訳(メタデータ) (2024-06-06T13:32:09Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。