論文の概要: Intra-Fairness Dynamics: The Bias Spillover Effect in Targeted LLM Alignment
- arxiv url: http://arxiv.org/abs/2602.16438v1
- Date: Wed, 18 Feb 2026 13:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.597822
- Title: Intra-Fairness Dynamics: The Bias Spillover Effect in Targeted LLM Alignment
- Title(参考訳): フェールネス内ダイナミクス:目標LLMアライメントにおけるバイアススパイル効果
- Authors: Eva Paraschou, Line Harder Clemmensen, Sneha Das,
- Abstract要約: 目的性アライメントが3つの最先端大言語モデル(LLM)における9つのセンシティブな属性間の公正性に与える影響について検討する。
集計結果では改善が見られたが,文脈認識分析では曖昧な文脈で顕著な劣化がみられた。
一つの属性に沿った公平性を改善することは、不確実性の下で他の属性の格差を必然的に悪化させることを実証する。
- 参考スコア(独自算出の注目度): 3.1670140283390276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional large language model (LLM) fairness alignment largely focuses on mitigating bias along single sensitive attributes, overlooking fairness as an inherently multidimensional and context-specific value. This approach risks creating systems that achieve narrow fairness metrics while exacerbating disparities along untargeted attributes, a phenomenon known as bias spillover. While extensively studied in machine learning, bias spillover remains critically underexplored in LLM alignment. In this work, we investigate how targeted gender alignment affects fairness across nine sensitive attributes in three state-of-the-art LLMs (Mistral 7B, Llama 3.1 8B, Qwen 2.5 7B). Using Direct Preference Optimization and the BBQ benchmark, we evaluate fairness under ambiguous and disambiguous contexts. Our findings reveal noticeable bias spillover: while aggregate results show improvements, context-aware analysis exposes significant degradations in ambiguous contexts, particularly for physical appearance ($p< 0.001$ across all models), sexual orientation, and disability status. We demonstrate that improving fairness along one attribute can inadvertently worsen disparities in others under uncertainty, highlighting the necessity of context-aware, multi-attribute fairness evaluation frameworks.
- Abstract(参考訳): 従来の大言語モデル(LLM)の公平性アライメントは、単一感度属性に沿ってバイアスを緩和することに集中しており、公正性を本質的に多次元でコンテキスト固有の値と見なしている。
このアプローチは、未目標の属性に沿った格差を悪化させながら、狭い公正度の測定値を達成するシステムを作成するリスクを負う。
機械学習では広く研究されているが、LLMアライメントにおいてバイアスの流出は極めて過小評価されている。
本研究では,現在最先端の3つのLCM (Mistral 7B, Llama 3.1 8B, Qwen 2.5 7B) の9つの属性に対して,対象性アライメントが公平性に与える影響について検討した。
直接選好最適化とBBQベンチマークを用いて、曖昧で曖昧な文脈下での公平性を評価する。
以上の結果から,有意な偏りがみられた: 集計結果では改善が見られたが, 文脈認識分析では, 不明瞭な文脈において, 特に身体的外観(p< 0.001$), 性的指向, 障害状態において, 顕著な劣化がみられた。
一方の属性に沿った公平性を改善することは、不確実性の下で他の属性の相違を必然的に悪化させ、文脈対応・多属性公正性評価フレームワークの必要性を強調している。
関連論文リスト
- Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models [11.396244643030983]
大規模言語モデル(LLM)は、下流のタスクに伝播する社会経済的バイアスを示す。
本研究では,非学習概念による内在バイアス緩和と,反事実データ拡張による外在バイアス緩和を比較するための統合評価フレームワークを提案する。
その結果,非学習による内在的偏見緩和は,内在性偏見を最大94.9%減少させるとともに,人口順等下流のタスクフェアネス指標を最大82%向上させ,精度を損なうことなく改善することを示した。
論文 参考訳(メタデータ) (2025-09-19T22:59:55Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - Towards counterfactual fairness through auxiliary variables [11.756940915048713]
変数を動機とする新しい因果推論フレームワークEXOCを紹介する。
本フレームワークは, ファクトフェアネスに寄与する補助ノードと制御ノードを明示的に定義する。
合成および実世界のデータセットを用いて評価を行い,EXOCの優位性を検証した。
論文 参考訳(メタデータ) (2024-12-06T04:23:05Z) - The Fragility of Fairness: Causal Sensitivity Analysis for Fair Machine Learning [34.50562695587344]
因果感度分析のツールをFairMLコンテキストに適用する。
本稿では,最も一般的なパリティ指標の感度を3種類の分類器で解析する。
因果感度分析は、パリティ計量評価の有意性を高めるために強力で必要なツールキットを提供することを示す。
論文 参考訳(メタデータ) (2024-10-12T17:28:49Z) - What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning [52.51430732904994]
強化学習問題では、エージェントはリターンを最大化しながら長期的な公正性を考慮する必要がある。
近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。
我々は、環境力学から生じる不平等を明示的に捉える、ダイナミックスフェアネスという新しい概念を導入する。
論文 参考訳(メタデータ) (2024-04-16T22:47:59Z) - Fairness Explainability using Optimal Transport with Applications in
Image Classification [0.46040036610482665]
機械学習アプリケーションにおける差別の原因を明らかにするための包括的アプローチを提案する。
We leverage Wasserstein barycenters to achieve fair predictions and introduce an extension to pinpoint bias-associated region。
これにより、各特徴がバイアスに影響を及ぼすかどうかを測定するために強制的公正性を使用する凝集系を導出することができる。
論文 参考訳(メタデータ) (2023-08-22T00:10:23Z) - Practical Approaches for Fair Learning with Multitype and Multivariate
Sensitive Attributes [70.6326967720747]
現実世界に展開された機械学習アルゴリズムが不公平さや意図しない社会的結果をもたらすことはないことを保証することが重要である。
本稿では,カーネルHilbert Spacesの相互共分散演算子上に構築されたフェアネス尺度であるFairCOCCOを紹介する。
実世界のデータセットにおける予測能力と公正性のバランスをとる上で、最先端技術に対する一貫した改善を実証的に示す。
論文 参考訳(メタデータ) (2022-11-11T11:28:46Z) - MultiFair: Multi-Group Fairness in Machine Learning [52.24956510371455]
機械学習におけるマルチグループフェアネスの研究(MultiFair)
この問題を解決するために,汎用的なエンドツーエンドのアルゴリズムフレームワークを提案する。
提案するフレームワークは多くの異なる設定に一般化可能である。
論文 参考訳(メタデータ) (2021-05-24T02:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。