論文の概要: Robustly Improving LLM Fairness in Realistic Settings via Interpretability
- arxiv url: http://arxiv.org/abs/2506.10922v1
- Date: Thu, 12 Jun 2025 17:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.872213
- Title: Robustly Improving LLM Fairness in Realistic Settings via Interpretability
- Title(参考訳): 解釈可能性による現実的設定におけるLLMフェアネスのロバスト改善
- Authors: Adam Karvonen, Samuel Marks,
- Abstract要約: 現実的な文脈の詳細が導入されたとき、アンチバイアスプロンプトは失敗する。
企業名や公的キャリアページからの文化記述などの現実的なコンテキストの追加,選択的な雇用制限は,人種的および性別的偏見を著しく引き起こすことが判明した。
我々の内部バイアス緩和は人種や性別に関連する方向を特定し、推論時にアフィンの概念を編集する。
- 参考スコア(独自算出の注目度): 0.16843915833103415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in high-stakes hiring applications, making decisions that directly impact people's careers and livelihoods. While prior studies suggest simple anti-bias prompts can eliminate demographic biases in controlled evaluations, we find these mitigations fail when realistic contextual details are introduced. We address these failures through internal bias mitigation: by identifying and neutralizing sensitive attribute directions within model activations, we achieve robust bias reduction across all tested scenarios. Across leading commercial (GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash) and open-source models (Gemma-2 27B, Gemma-3, Mistral-24B), we find that adding realistic context such as company names, culture descriptions from public careers pages, and selective hiring constraints (e.g.,``only accept candidates in the top 10\%") induces significant racial and gender biases (up to 12\% differences in interview rates). When these biases emerge, they consistently favor Black over White candidates and female over male candidates across all tested models and scenarios. Moreover, models can infer demographics and become biased from subtle cues like college affiliations, with these biases remaining invisible even when inspecting the model's chain-of-thought reasoning. To address these limitations, our internal bias mitigation identifies race and gender-correlated directions and applies affine concept editing at inference time. Despite using directions from a simple synthetic dataset, the intervention generalizes robustly, consistently reducing bias to very low levels (typically under 1\%, always below 2.5\%) while largely maintaining model performance. Our findings suggest that practitioners deploying LLMs for hiring should adopt more realistic evaluation methodologies and consider internal mitigation strategies for equitable outcomes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人々のキャリアや生活に直接影響を及ぼす決定を下す、高度な採用アプリケーションにますますデプロイされている。
従来の研究では、単純なアンチバイアスプロンプトは、制御された評価における人口統計バイアスを排除できるが、現実的な文脈の詳細が導入されると、これらの緩和は失敗する。
モデルアクティベーション内でのセンシティブな属性方向を識別し、中和することにより、テストされたすべてのシナリオに対して堅牢なバイアス低減を実現する。
主要なコマーシャル(GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash)とオープンソースモデル(Gemma-2 27B、Gemma-3、Mistral-24B)全体で、企業名、公的キャリアページからの文化記述、選抜された雇用制限(例:````はトップ10の候補者のみを受け入れる)などの現実的なコンテキストを追加することで、人種的および性別的偏見(面接率の最大12倍の違い)が引き起こされる。
これらのバイアスが出現すると、彼らは一貫して白人候補者よりも黒人を、全てのテストされたモデルとシナリオにわたって男性候補者よりも女性を優先する。
さらに、モデルは人口統計学を推測し、大学の関係のような微妙な手がかりからバイアスを受けることができ、モデルの連鎖的推論を検査してもこれらのバイアスは見えないままである。
これらの制限に対処するため、我々の内部バイアス緩和は人種や性別に関連する方向を特定し、推論時にアフィンの概念を編集する。
単純な合成データセットからの指示を用いても、介入は頑健に一般化され、バイアスを非常に低いレベル(典型的には1\%以下、常に2.5\%以下)に抑えながら、モデル性能をほぼ維持する。
本研究は,LLMを雇用に導入する実践者は,より現実的な評価手法を採用し,公平な結果に対する内部緩和戦略を検討するべきであることを示唆する。
関連論文リスト
- Who Does the Giant Number Pile Like Best: Analyzing Fairness in Hiring Contexts [5.111540255111445]
レースベースの違いは生成したサマリーの約10%に現れ、ジェンダーベースの違いは1%に過ぎなかった。
検索モデルは非デデマグラフィー的変化に匹敵する感度を示し、公平性問題は一般的な脆性問題に起因する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-01-08T07:28:10Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Revealing Hidden Bias in AI: Lessons from Large Language Models [0.0]
本研究では,Claude 3.5 Sonnet, GPT-4o, Gemini 1.5, Llama 3.1 405B による面接レポートのバイアスについて検討した。
LLMによる匿名化によるバイアス低減効果について検討した。
論文 参考訳(メタデータ) (2024-10-22T11:58:54Z) - With a Grain of SALT: Are LLMs Fair Across Social Dimensions? [3.5001789247699535]
本稿では,ジェンダー,宗教,人種にまたがるオープンソースのLarge Language Models(LLM)におけるバイアスの系統的分析について述べる。
私たちはSALTデータセットを使用して,General Debate, positioned Debate, Career Advice, Problem Solving, CV Generationという,5つの異なるバイアストリガを組み込んでいます。
以上の結果から, モデル間で一貫した分極が明らかとなり, 組織的に好意的あるいは好ましくない治療を受ける集団が存在する。
論文 参考訳(メタデータ) (2024-10-16T12:22:47Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。