論文の概要: No Free Lunch in Language Model Bias Mitigation? Targeted Bias Reduction Can Exacerbate Unmitigated LLM Biases
- arxiv url: http://arxiv.org/abs/2511.18635v1
- Date: Sun, 23 Nov 2025 22:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.94429
- Title: No Free Lunch in Language Model Bias Mitigation? Targeted Bias Reduction Can Exacerbate Unmitigated LLM Biases
- Title(参考訳): 言語モデルバイアス緩和におけるフリーレンチなし : 標的バイアス低減は未緩和LLMバイアスを悪化させる
- Authors: Shireen Chand, Faith Baca, Emilio Ferrara,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータから社会的バイアスを継承し、有害または不公平なアウトプットにつながる可能性がある。
7つのモデルファミリーから10種類のモデルに適用された4つのバイアス緩和手法について検討し,人種的,宗教的,職業的,性的なバイアスについて検討した。
我々の結果は、標的緩和は意図した次元におけるバイアスを減少させることがあるが、意図しない結果や否定的な結果をもたらすことが多いことを一貫して示している。
- 参考スコア(独自算出の注目度): 6.184434080778806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) inherit societal biases from their training data, potentially leading to harmful or unfair outputs. While various techniques aim to mitigate these biases, their effects are often evaluated only along the dimension of the bias being targeted. This work investigates the cross-category consequences of targeted bias mitigation. We study four bias mitigation techniques applied across ten models from seven model families, and we explore racial, religious, profession- and gender-related biases. We measure the impact of debiasing on model coherence and stereotypical preference using the StereoSet benchmark. Our results consistently show that while targeted mitigation can sometimes reduce bias in the intended dimension, it frequently leads to unintended and often negative consequences in others, such as increasing model bias and decreasing general coherence. These findings underscore the critical need for robust, multi-dimensional evaluation tools when examining and developing bias mitigation strategies to avoid inadvertently shifting or worsening bias along untargeted axes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングデータから社会的バイアスを継承し、有害または不公平なアウトプットにつながる可能性がある。
様々な手法はこれらのバイアスを軽減することを目的としているが、それらの効果は標的となるバイアスの次元に沿ってのみ評価されることが多い。
本研究は,対象バイアス緩和のカテゴリ間影響について検討する。
7つのモデルファミリーから10種類のモデルに適用された4つのバイアス緩和手法について検討し,人種的,宗教的,職業的,性的なバイアスについて検討した。
モデルコヒーレンスとステレオタイプ選好に対するデバイアスの影響をStereoSetベンチマークを用いて測定した。
我々の結果は、標的緩和は意図した次元におけるバイアスを減少させることがあるが、モデルバイアスの増加や一般的な一貫性の低下など、意図しない、しばしば否定的な結果をもたらすことを常に示している。
これらの知見は、意図しない軸に沿った偏見の急激なシフトや悪化を避けるため、偏見緩和戦略を検証・開発する際に、頑健で多次元的な評価ツールが不可欠であることを示す。
関連論文リスト
- BiasConnect: Investigating Bias Interactions in Text-to-Image Models [73.76853483463836]
テキスト・ツー・イメージ・モデルにおけるバイアス相互作用の分析と定量化を目的とした新しいツールであるBiasConnectを紹介する。
我々の手法は、与えられたバイアスが修正されたとき、他のバイアス次元が理想的な分布に向かって、あるいは離れてどのように変化するかを示す経験的推定を提供する。
本稿では,最適なバイアス緩和軸の選択,学習する依存関係の異なるTTIモデルの比較,およびTTIモデルにおける交叉社会的バイアスの増幅を理解するためのBiasConnectの有用性を示す。
論文 参考訳(メタデータ) (2025-03-12T19:01:41Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Targeted Data Augmentation for bias mitigation [0.0]
我々は、TDA(Targeted Data Augmentation)と呼ばれるバイアスに対処するための、新しく効率的なアプローチを導入する。
バイアスを除去する面倒な作業とは異なり、本手法は代わりにバイアスを挿入することを提案し、結果として性能が向上する。
偏見を特定するために,臨床皮膚病変のデータセットと男女の顔のデータセットの2つの多様なデータセットを注釈した。
論文 参考訳(メタデータ) (2023-08-22T12:25:49Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models
with Adversarial Learning [55.96577490779591]
視覚言語モデルは社会的バイアスやステレオタイプを符号化することができる。
これらのマルチモーダル害の測定と緩和には課題がある。
バイアス尺度を調査し,画像テキスト表現にランキング指標を適用した。
論文 参考訳(メタデータ) (2022-03-22T17:59:04Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。