論文の概要: On the Effectiveness and Generalization of Race Representations for Debiasing High-Stakes Decisions
- arxiv url: http://arxiv.org/abs/2504.06303v1
- Date: Mon, 07 Apr 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:33:29.772997
- Title: On the Effectiveness and Generalization of Race Representations for Debiasing High-Stakes Decisions
- Title(参考訳): レース表現の有効性と一般化について
- Authors: Dang Nguyen, Chenhao Tan,
- Abstract要約: Gemma 2B と LLama 3.2 3B は強いバイアスを示す。
ジェマは黒人よりも白人が26%多く、ラマは白人よりもアジア人が60%多い。
分散アライメントサーチを用いて、モデルのアクティベーション内で「レース部分空間」を識別し、それらをデバイアスモデル決定に介入することができる。
- 参考スコア(独自算出の注目度): 26.654949464315088
- License:
- Abstract: Understanding and mitigating biases is critical for the adoption of large language models (LLMs) in high-stakes decision-making. We introduce Admissions and Hiring, decision tasks with hypothetical applicant profiles where a person's race can be inferred from their name, as simplified test beds for racial bias. We show that Gemma 2B Instruct and LLaMA 3.2 3B Instruct exhibit strong biases. Gemma grants admission to 26% more White than Black applicants, and LLaMA hires 60% more Asian than White applicants. We demonstrate that these biases are resistant to prompt engineering: multiple prompting strategies all fail to promote fairness. In contrast, using distributed alignment search, we can identify "race subspaces" within model activations and intervene on them to debias model decisions. Averaging the representation across all races within the subspaces reduces Gemma's bias by 37-57%. Finally, we examine the generalizability of Gemma's race subspaces, and find limited evidence for generalization, where changing the prompt format can affect the race representation. Our work suggests mechanistic approaches may provide a promising venue for improving the fairness of LLMs, but a universal race representation remains elusive.
- Abstract(参考訳): バイアスの理解と緩和は、大規模言語モデル(LLM)を高い意思決定に採用するために重要である。
本稿では,人種的偏見に対する簡易なテストベッドとして,候補者の人種を名前から推測できる仮説的応募者プロファイルによる意思決定タスクであるAdmissions and Hiringを紹介した。
Gemma 2B と LLama 3.2 3B は強いバイアスを示す。
ジェマは黒人よりも白人が26%多く、ラマは白人よりもアジア人が60%多い。
これらのバイアスは、エンジニアリングの促進に耐性があることを実証しています。
対照的に、分散アライメントサーチを用いることで、モデルのアクティベーション内で「レース部分空間」を識別し、それらをデバイアスモデル決定に介入することができる。
サブスペース内のすべてのレースにおける表現の平均化は、Gemmaのバイアスを37~57%削減する。
最後に、Gemmaのレース部分空間の一般化可能性について検討し、プロンプトフォーマットの変更がレース表現に影響を与えるような一般化の限られた証拠を見出す。
我々の研究は、機械的アプローチがLLMの公正性を改善するための有望な場所を提供するかもしれないことを示唆しているが、普遍的な人種表現はいまだ解明されていない。
関連論文リスト
- Are Large Language Models Ready for Travel Planning? [6.307444995285539]
大規模言語モデル (LLMs) は、宿泊や観光において有望であり、人口統計群にまたがるサービス提供能力は未だ不明である。
本稿では,LDMを旅行計画アシスタントとして利用する際の性別と民族的偏見について検討する。
論文 参考訳(メタデータ) (2024-10-22T18:08:25Z) - From Bias to Balance: Detecting Facial Expression Recognition Biases in Large Multimodal Foundation Models [3.1927733045184885]
本研究では,大規模マルチモーダルファンデーションモデル(LMFM)における表情認識(FER)システムの人種的偏見について考察する。
既存の研究は主に従来のFERモデル(CNN、RNN、ViT)に焦点を当てており、LMFMにおける人種的バイアスの理解のギャップを残している。
GPT-4o、PaliGemma、Gemini、CLIPの4つの主要なLMFMをベンチマークし、異なる人種層にわたる顔の感情検出のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-08-27T07:54:01Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Are Emily and Greg Still More Employable than Lakisha and Jamal?
Investigating Algorithmic Hiring Bias in the Era of ChatGPT [24.496590819263865]
GPT-3.5、Bard、Claudeといった大規模言語モデル(LLM)は、様々なタスクに適用可能である。
本研究では,(1)履歴書と職種とのマッチング,(2)履歴書と雇用関連情報との要約の2つの課題についてLCMを評価した。
総じて、LSMは人種や性別で頑丈であり、妊娠状態や政治的親戚関係におけるパフォーマンスが異なる。
論文 参考訳(メタデータ) (2023-10-08T12:08:48Z) - On Disentangled and Locally Fair Representations [95.6635227371479]
人種や性別などのセンシティブなグループに対して公平な方法で分類を行うという課題について検討する。
局所的公正表現を学習し、学習された表現の下で、各サンプルの近傍は感度特性の観点からバランスをとる。
論文 参考訳(メタデータ) (2022-05-05T14:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。