論文の概要: Assessing GPT's Bias Towards Stigmatized Social Groups: An Intersectional Case Study on Nationality Prejudice and Psychophobia
- arxiv url: http://arxiv.org/abs/2505.17045v1
- Date: Thu, 15 May 2025 04:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.39367
- Title: Assessing GPT's Bias Towards Stigmatized Social Groups: An Intersectional Case Study on Nationality Prejudice and Psychophobia
- Title(参考訳): GPTの社会的集団に対するバイアスの評価--国民性偏見と精神恐怖症を事例として
- Authors: Afifah Kashif, Heer Patel,
- Abstract要約: 近年の研究では、基礎的大規模言語モデル(LLM)において、特定の国籍や差別化された社会集団に対する顕著な偏見が浮き彫りになっている。
本研究は,広範に使用されているGPT-3.5/4/4o LLMSの出力と交差するこれらのバイアスの倫理的意味を考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have separately highlighted significant biases within foundational large language models (LLMs) against certain nationalities and stigmatized social groups. This research investigates the ethical implications of these biases intersecting with outputs of widely-used GPT-3.5/4/4o LLMS. Through structured prompt series, we evaluate model responses to several scenarios involving American and North Korean nationalities with various mental disabilities. Findings reveal significant discrepancies in empathy levels with North Koreans facing greater negative bias, particularly when mental disability is also a factor. This underscores the need for improvements in LLMs designed with a nuanced understanding of intersectional identity.
- Abstract(参考訳): 近年の研究では、特定の国籍やシグマ化された社会集団に対する基礎的大規模言語モデル(LLM)における重要なバイアスが、別々に強調されている。
本研究は,広範に使用されているGPT-3.5/4/4o LLMSの出力と交差するこれらのバイアスの倫理的意味を考察する。
構造化されたプロンプトシリーズを通じて、様々な精神障害を持つ米国と北朝鮮の国籍に関するいくつかのシナリオに対するモデル応答を評価した。
北朝鮮人は、特に精神障害が要因である場合、より否定的な偏見に直面している。
このことは、交差アイデンティティの微妙な理解によって設計されたLLMの改善の必要性を浮き彫りにした。
関連論文リスト
- Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models [66.5536396328527]
LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。
ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。
本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
論文 参考訳(メタデータ) (2025-04-10T14:23:06Z) - Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups [20.07782545235038]
大規模言語モデル(LLM)によるリスクの高い集団に対する非挑発的標的攻撃の研究は、いまだに未調査である。
本稿は,(1)高度に脆弱なメンタルヘルスグループに対するLSMによる攻撃の明示的評価,(2)相対バイアスの伝播を研究するネットワークベースの枠組み,(3)これらの攻撃から生じる相対的な攻撃の程度を評価すること,の3つの新しい貢献について述べる。
論文 参考訳(メタデータ) (2025-04-08T15:56:57Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Bias Against 93 Stigmatized Groups in Masked Language Models and
Downstream Sentiment Classification Tasks [2.5690340428649323]
本研究は, 社会的汚職に対する偏見を大規模に検討することにより, 現存する作業における偏見評価の焦点を広げるものである。
アメリカ合衆国では、病気、障害、薬物使用、精神疾患、宗教、セクシュアリティ、社会経済的地位、その他の関連要因に関する幅広い条件を含む93のスティグマタイズドグループに焦点を当てている。
英語学習マスケッド言語モデル(MLM)におけるこれらのグループに対するバイアスとその下流感情分類タスクについて検討した。
論文 参考訳(メタデータ) (2023-06-08T20:46:09Z) - Toward Understanding Bias Correlations for Mitigation in NLP [34.956581421295]
この研究は、緩和におけるバイアスの相関を理解するための最初の体系的な研究を提供することを目的としている。
我々は2つの共通NLPタスク(毒性検出と単語埋め込み)におけるバイアス緩和について検討する。
以上の結果から, 偏見は相関し, 独立性脱バイアスアプローチが不十分な現状が示唆された。
論文 参考訳(メタデータ) (2022-05-24T22:48:47Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。