論文の概要: Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.16462v1
- Date: Fri, 19 Sep 2025 22:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.804112
- Title: Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models
- Title(参考訳): 内在的フェアネス:大規模言語モデルにおけるバイアス緩和の下流への影響評価
- Authors: 'Mina Arzaghi', 'Alireza Dehghanpour Farashah', 'Florian Carichon', ' Golnoosh Farnadi',
- Abstract要約: 大規模言語モデル(LLM)は、下流のタスクに伝播する社会経済的バイアスを示す。
本研究では,非学習概念による内在バイアス緩和と,反事実データ拡張による外在バイアス緩和を比較するための統合評価フレームワークを提案する。
その結果,非学習による内在的偏見緩和は,内在性偏見を最大94.9%減少させるとともに,人口順等下流のタスクフェアネス指標を最大82%向上させ,精度を損なうことなく改善することを示した。
- 参考スコア(独自算出の注目度): 11.396244643030983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit socio-economic biases that can propagate into downstream tasks. While prior studies have questioned whether intrinsic bias in LLMs affects fairness at the downstream task level, this work empirically investigates the connection. We present a unified evaluation framework to compare intrinsic bias mitigation via concept unlearning with extrinsic bias mitigation via counterfactual data augmentation (CDA). We examine this relationship through real-world financial classification tasks, including salary prediction, employment status, and creditworthiness assessment. Using three open-source LLMs, we evaluate models both as frozen embedding extractors and as fine-tuned classifiers. Our results show that intrinsic bias mitigation through unlearning reduces intrinsic gender bias by up to 94.9%, while also improving downstream task fairness metrics, such as demographic parity by up to 82%, without compromising accuracy. Our framework offers practical guidance on where mitigation efforts can be most effective and highlights the importance of applying early-stage mitigation before downstream deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、下流のタスクに伝播する社会経済的バイアスを示す。
従来の研究では、LLMの内在バイアスが下流のタスクレベルでの公平性に影響を及ぼすか疑問が持たれているが、この研究は、その関連性を実証的に研究している。
本研究では,非学習概念による内在バイアス軽減と,対実データ拡張(CDA)による外在バイアス緩和を比較するための統合評価フレームワークを提案する。
我々は、給与予測、雇用状況、信用度評価など、現実世界の財務分類タスクを通じて、この関係について検討する。
3つのオープンソースLCMを用いて,凍結埋込抽出器および微調整分類器としてモデルを評価する。
その結果,非学習による内在的偏見緩和は,内在性偏見を最大94.9%減少させるとともに,人口順等下流のタスクフェアネス指標を最大82%向上させ,精度を損なうことなく改善することを示した。
我々のフレームワークは、緩和の取り組みが最も効果的である場所について実践的なガイダンスを提供し、下流への展開に先立って早期の緩和を適用することの重要性を強調している。
関連論文リスト
- Evaluating Bias in LLMs for Job-Resume Matching: Gender, Race, and Education [8.235367170516769]
大規模言語モデル(LLM)は、求職履歴書と候補履歴書を一致させることで、採用を自動化する能力を提供する。
しかし、これらのモデルに固有のバイアスは、不公平な雇用慣行をもたらし、社会的偏見を強化し、職場の多様性を損なう可能性がある。
本研究は、英語と米国の文脈における求人マッチングタスクにおけるLLMの性能と公平性について検討する。
論文 参考訳(メタデータ) (2025-03-24T22:11:22Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data [9.90951705988724]
大規模言語モデル(LLM)は、社会的バイアスを継承し増幅する傾向がある。
LLMバイアスは、不公平な慣行をもたらし、社会的不平等を悪化させる。
論文 参考訳(メタデータ) (2024-08-20T23:54:26Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness [10.081447621656523]
言語モデリング能力に影響を及ぼす影響は、高品質でコンテキストの長いデバイアスコーパスによって緩和することができる。
タスク依存型デバイアスングヒンジの有効性は、下流アプリケーションに使用されるタスク固有データとデバイアスドモデルの両方の量的バイアスレベルに影響を及ぼす。
本稿では,ソーシャル・フェア・デバイアスを下流ファインチューニング,ProSocialTuningに伝達する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T15:11:11Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - On Transferability of Bias Mitigation Effects in Language Model
Fine-Tuning [30.833538367971872]
微調整された言語モデルは、一連のモデリングタスクにおいて保護されたグループに対するバイアスを示すことが示されている。
これまでの研究は、これらのバイアスの検出、データの表現におけるバイアスの低減、微調整時のバイアスを軽減するための補助的なトレーニング目的の使用に重点を置いていた。
下流タスクにおけるバイアスを軽減するために、上流バイアス軽減(UBM)の実現可能性とメリットについて検討する。
論文 参考訳(メタデータ) (2020-10-24T10:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。