論文の概要: Intersectional Fairness in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.20677v2
- Date: Thu, 23 Apr 2026 01:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.058351
- Title: Intersectional Fairness in Large Language Models
- Title(参考訳): 大規模言語モデルにおける節間公平性
- Authors: Chaima Boufaied, Ronnie De Souza Santos, Ann Barcomb,
- Abstract要約: 大規模言語モデル(LLM)は、社会的に敏感な設定にますますデプロイされる。
本稿では,あいまいな文脈とあいまいな文脈を用いた6つのLLMにおける交差点の公平さを体系的に評価する。
- 参考スコア(独自算出の注目度): 3.1746607422907513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in socially sensitive settings, raising concerns about fairness and biases, particularly across intersectional demographic attributes. In this paper, we systematically evaluate intersectional fairness in six LLMs using ambiguous and disambiguated contexts from two benchmark datasets. We assess LLM behavior using bias scores, subgroup fairness metrics, accuracy, and consistency through multi-run analysis across contexts and negative and non-negative question polarities. Our results show that while modern LLMs generally perform well in ambiguous contexts, this limits the informativeness of fairness metrics due to sparse non-unknown predictions. In disambiguated contexts, LLM accuracy is influenced by stereotype alignment, with models being more accurate when the correct answer reinforces a stereotype than when it contradicts it. This pattern is especially pronounced in race-gender intersections, where directional bias toward stereotypes is stronger. Subgroup fairness metrics further indicate that, despite low observed disparity in some cases, outcome distributions remain uneven across intersectional groups. Across repeated runs, responses also vary in consistency, including stereotype-aligned responses. Overall, our findings show that apparent model competence is partly associated with stereotype-consistent cues, and no evaluated LLM achieves consistently reliable or fair behavior across intersectional settings. These findings highlight the need for evaluation beyond accuracy, emphasizing the importance of combining bias, subgroup fairness, and consistency metrics across intersectional groups, contexts, and repeated runs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会的に敏感な設定にますますデプロイされ、公平性やバイアス、特に交差する人口統計特性に対する懸念が高まっている。
本稿では,2つのベンチマークデータセットから,あいまいで曖昧な文脈を用いて,6つのLDMにおける交差フェアネスを体系的に評価する。
バイアススコア, サブグループフェアネス指標, 精度, 整合性を用いたLCMの挙動を, コンテキスト間のマルチラン解析と非負の質問極性を用いて評価する。
その結果,現代のLLMは不明瞭な状況下では良好に機能するが,不明瞭な予測によるフェアネス指標の有意性には制限があることがわかった。
曖昧な文脈では、LCMの精度はステレオタイプアライメントの影響を受けており、正解がステレオタイプに矛盾する場合にはモデルの方がより正確である。
このパターンは特に、ステレオタイプに対する指向バイアスが強いレースとジェンダーの交差点で顕著である。
サブグループフェアネスの指標は、いくつかのケースでは観測される差が低いにもかかわらず、結果の分布が交叉群全体で不均一であることをさらに示している。
繰り返し実行される間、応答はステレオタイプ対応の応答を含む一貫性も変化する。
以上の結果から, モデル能力はステレオタイプ整合性に部分的に関連しており, LLMの評価は整合性, 公平な動作が得られないことが示唆された。
これらの知見は、偏見、サブグループフェアネス、交差するグループ、コンテキスト、繰り返し実行における一貫性の指標を組み合わせることの重要性を強調し、精度を超える評価の必要性を強調している。
関連論文リスト
- Addressing Stereotypes in Large Language Models: A Critical Examination and Mitigation [0.0]
自然言語処理(NLP)の発展に伴い,近年,大規模言語モデル (LLM) が普及している。
本研究は, 生成人工知能(AI)の増大に伴い, LLMのバイアスに対処する必要があることを調査し, 強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的なベンチマークを用いて,BERT や GPT 3.5,ADA など,様々な世代モデルにおける様々なバイアスの存在を評価する。
論文 参考訳(メタデータ) (2025-11-18T05:43:34Z) - A Comprehensive Study of Implicit and Explicit Biases in Large Language Models [1.0555164678638427]
この研究は、生成的AIが増大する中で、大規模言語モデルにおけるバイアスに対処する必要があることを強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的ベンチマークを用いて,BERT や GPT 3.5 といった複数の生成モデルにおける様々なバイアスの存在を評価する。
その結果、微調整されたモデルでは性別バイアスに悩まされるが、人種バイアスの特定と回避には優れていた。
論文 参考訳(メタデータ) (2025-11-18T05:27:17Z) - Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs [25.62533031580287]
大規模言語モデル(LLM)のバイアスは、その信頼性と公平性を著しく損なう。
モデルベクトル空間の構造に基づくテストセットのないバイアス分析フレームワークであるBiasLensを提案する。
論文 参考訳(メタデータ) (2025-05-21T13:50:23Z) - Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models [66.5536396328527]
LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。
ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。
本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
論文 参考訳(メタデータ) (2025-04-10T14:23:06Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。
このサンプリング行動が人間の意思決定と類似していることが示される。
統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。