論文の概要: LLM Bias Detection and Mitigation through the Lens of Desired Distributions
- arxiv url: http://arxiv.org/abs/2510.06354v1
- Date: Tue, 07 Oct 2025 18:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.139304
- Title: LLM Bias Detection and Mitigation through the Lens of Desired Distributions
- Title(参考訳): 脱離分布レンズによるLDMバイアス検出と緩和
- Authors: Ingroj Shrestha, Padmini Srinivasan,
- Abstract要約: 本稿では,適応的損失に基づく微調整手法を提案する。
現実の環境下では,等しく,30-75%の削減でほぼ完全な緩和が達成される。
- 参考スコア(独自算出の注目度): 8.710551702283391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although prior work on bias mitigation has focused on promoting social equality and demographic parity, less attention has been given to aligning LLM's outputs to desired distributions. For example, we might want to align a model with real-world distributions to support factual grounding. Thus, we define bias as deviation from a desired distribution, which may be an equal or real-world distribution, depending on application goals. We propose a weighted adaptive loss based fine-tuning method that aligns LLM's gender-profession output distribution with the desired distribution, while preserving language modeling capability. Using 3 profession sets -- male-dominated, female-dominated, and gender-balanced -- derived from U.S. labor statistics (2024), we assess both our adaptive method for reflecting reality and a non-adaptive variant for equality. Across three masked language models, bias is observed under both distributions. We achieve near-complete mitigation under equality and 30-75% reduction under real-world settings. Autoregressive LLMs show no bias under equality but notable bias under real-world settings, with the Llama Instruct models (3.2-3B, 3.1-8B) achieving a 50-62% reduction.
- Abstract(参考訳): 偏見緩和に関する以前の研究は、社会的平等と人口格差の促進に焦点が当てられていたが、LLMの出力を望ましい分布に合わせることにはあまり関心が向けられていない。
例えば、現実のグラウンド化をサポートするために、モデルと現実世界の分布を一致させたいかもしれません。
したがって、バイアスは望ましい分布から逸脱したものと定義する。
言語モデリング能力を維持しつつ,LLMの性別・職業出力分布と所望の分布とを一致させる重み付け適応損失に基づく微調整手法を提案する。
アメリカの労働統計(2024年)から導かれた3つの職業セット(男性支配、女性支配、ジェンダーバランス)を用いて、現実を反映するための適応的手法と平等のための非適応的変種の両方を評価する。
3つのマスキングされた言語モデルで、両方の分布の下でバイアスが観測される。
現実の環境下では,等しく,30-75%の削減でほぼ完全な緩和が達成される。
Llama Instruct Model (3.2-3B, 3.1-8B)は50-62%の減少を達成した。
関連論文リスト
- Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。
異なるデータ条件に合わせた2つの学習方法を提案する。
この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文 参考訳(メタデータ) (2025-09-30T20:36:41Z) - On Optimal Steering to Achieve Exact Fairness [29.589891801235083]
経験的に、我々の合成と実世界の両方のデータセットにおける最適なステアリング技術は、実用性を低下させることなく公正性を向上する。
マルチクラス分類におけるバイアスを低減するために, LLM表現のアフィンステアリングを示す。
論文 参考訳(メタデータ) (2025-09-19T08:37:51Z) - Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach [7.969162168078149]
大規模言語モデル(LLM)は、しばしば現実世界のバイアスを反映し、これらの効果を緩和する努力に繋がる。
事実に基づく基準と実世界統計を用いたバイアス評価のための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-11-26T11:32:43Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Domain Adaptation meets Individual Fairness. And they get along [48.95808607591299]
アルゴリズムフェアネスの介入は、機械学習モデルが分散シフトを克服するのに役立つことを示す。
特に,個人フェアネス(IF)の適切な概念を強制することで,MLモデルの分布外精度が向上することを示す。
論文 参考訳(メタデータ) (2022-05-01T16:19:55Z) - Unimodal-Concentrated Loss: Fully Adaptive Label Distribution Learning
for Ordinal Regression [32.35098925000738]
既存のALDLアルゴリズムは、順序回帰の本質的な性質を十分に活用していないと論じる。
完全適応型ラベル分布学習(unimodal-concentated loss)のための新しい損失関数を提案する。
論文 参考訳(メタデータ) (2022-04-01T09:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。