論文の概要: Identifying Features Associated with Bias Against 93 Stigmatized Groups in Language Models and Guardrail Model Safety Mitigation
- arxiv url: http://arxiv.org/abs/2512.19238v1
- Date: Mon, 22 Dec 2025 10:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.710081
- Title: Identifying Features Associated with Bias Against 93 Stigmatized Groups in Language Models and Guardrail Model Safety Mitigation
- Title(参考訳): 言語モデルとガードレールモデルの安全対策における93のグループに対するバイアスに関連する特徴の同定
- Authors: Anna-Maria Gueorguieva, Aylin Caliskan,
- Abstract要約: 広範に使用されている3つの大言語モデル(LLM)における93の分類群に対するバイアスを測定する。
以上の結果から,ヒトのシグマはSocialStigmaQAのプロンプトから最も偏ったアウトプットを持つことが明らかとなった。
バイアス軽減のためのガードレールモデルの改善に向けた今後の取り組みを提案する。
- 参考スコア(独自算出の注目度): 9.539495585692007
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have been shown to exhibit social bias, however, bias towards non-protected stigmatized identities remain understudied. Furthermore, what social features of stigmas are associated with bias in LLM outputs is unknown. From psychology literature, it has been shown that stigmas contain six shared social features: aesthetics, concealability, course, disruptiveness, origin, and peril. In this study, we investigate if human and LLM ratings of the features of stigmas, along with prompt style and type of stigma, have effect on bias towards stigmatized groups in LLM outputs. We measure bias against 93 stigmatized groups across three widely used LLMs (Granite 3.0-8B, Llama-3.1-8B, Mistral-7B) using SocialStigmaQA, a benchmark that includes 37 social scenarios about stigmatized identities; for example deciding wether to recommend them for an internship. We find that stigmas rated by humans to be highly perilous (e.g., being a gang member or having HIV) have the most biased outputs from SocialStigmaQA prompts (60% of outputs from all models) while sociodemographic stigmas (e.g. Asian-American or old age) have the least amount of biased outputs (11%). We test if the amount of biased outputs could be decreased by using guardrail models, models meant to identify harmful input, using each LLM's respective guardrail model (Granite Guardian 3.0, Llama Guard 3.0, Mistral Moderation API). We find that bias decreases significantly by 10.4%, 1.4%, and 7.8%, respectively. However, we show that features with significant effect on bias remain unchanged post-mitigation and that guardrail models often fail to recognize the intent of bias in prompts. This work has implications for using LLMs in scenarios involving stigmatized groups and we suggest future work towards improving guardrail models for bias mitigation.
- Abstract(参考訳): 大規模言語モデル (LLM) は社会的偏見を示すことが示されているが、非保護されたスティグマタイズされたアイデンティティに対する偏見はいまだ検討されていない。
さらに, スティグマの社会的特徴がLCM出力のバイアスとどのような関係があるのかは不明である。
心理学の文献から、スティグマには美学、隠蔽性、コース、破壊性、起源、危険の6つの共通する社会的特徴が含まれていることが示されている。
本研究では,シグマの特徴のヒトおよびLSM評価と,シグマの種類が,シグマのアウトプットにおけるシグマ化群に対する偏見に影響を及ぼすかどうかを検討する。
我々は,広く使用されている3つのLSM(Granite 3.0-8B,Llama-3.1-8B,Mistral-7B)における93のグループに対するバイアスをSocialStigmaQAを用いて測定した。
以上の結果から,ヒトが有病率が高いと評価したシグマ(例えば,ギャングである,HIVを持つなど)がSocialStigmaQAの最も偏りのあるアウトプット(全モデルからのアウトプットの60%)を持つのに対し,社会デマ(例えばアジア系アメリカ人や高齢)は最も偏りの少ないアウトプット(11%)を持つことがわかった。
LLMの各ガードレールモデル(Granite Guardian 3.0, Llama Guard 3.0, Mistral Moderation API)を用いて, 有害な入力を識別するためのモデルであるガードレールモデルを用いて, バイアス出力の量を減らすことができるかどうかを検証した。
偏差は, それぞれ10.4%, 1.4%, 7.8%と著しく減少した。
しかしながら, バイアスに有意な影響を及ぼす特徴は抑制後変わらず, ガードレールモデルでは, プロンプトにおけるバイアスの意図を認識できないことが多い。
本研究は, スティグマタイズされたグループを含むシナリオにおけるLLMの利用を示唆するものであり, バイアス軽減のためのガードレールモデルの改善に向けた今後の取り組みを提案する。
関連論文リスト
- Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models [66.5536396328527]
LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。
ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。
本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
論文 参考訳(メタデータ) (2025-04-10T14:23:06Z) - Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。
このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。
すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-05-09T19:02:53Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Bias Against 93 Stigmatized Groups in Masked Language Models and
Downstream Sentiment Classification Tasks [2.5690340428649323]
本研究は, 社会的汚職に対する偏見を大規模に検討することにより, 現存する作業における偏見評価の焦点を広げるものである。
アメリカ合衆国では、病気、障害、薬物使用、精神疾患、宗教、セクシュアリティ、社会経済的地位、その他の関連要因に関する幅広い条件を含む93のスティグマタイズドグループに焦点を当てている。
英語学習マスケッド言語モデル(MLM)におけるこれらのグループに対するバイアスとその下流感情分類タスクについて検討した。
論文 参考訳(メタデータ) (2023-06-08T20:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。