論文の概要: Context-Aware Counterfactual Data Augmentation for Gender Bias Mitigation in Language Models
- arxiv url: http://arxiv.org/abs/2602.09590v1
- Date: Tue, 10 Feb 2026 09:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.477336
- Title: Context-Aware Counterfactual Data Augmentation for Gender Bias Mitigation in Language Models
- Title(参考訳): 言語モデルにおけるジェンダーバイアス軽減のための文脈対応対実データ拡張
- Authors: Shweta Parihar, Liu Guangliang, Natalie Parde, Lu Cheng,
- Abstract要約: 微調整言語モデル(LM)における社会的バイアス軽減の課題は、言語モデリング能力の潜在的な低下である。
本研究では,大きなLMを用いたコンテキスト拡張データ拡張手法であるContext-CDAを提案し,デバイアスコーパスの多様性とコンテキスト関連性を高める。
次に,不確実性に基づくフィルタリングを用いて,ターゲットの小さいLMによる低品質とみなすデファクトを除外する。
- 参考スコア(独自算出の注目度): 14.937360204897415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A challenge in mitigating social bias in fine-tuned language models (LMs) is the potential reduction in language modeling capability, which can harm downstream performance. Counterfactual data augmentation (CDA), a widely used method for fine-tuning, highlights this issue by generating synthetic data that may align poorly with real-world distributions or creating overly simplistic counterfactuals that ignore the social context of altered sensitive attributes (e.g., gender) in the pretraining corpus. To address these limitations, we propose a simple yet effective context-augmented CDA method, Context-CDA, which uses large LMs to enhance the diversity and contextual relevance of the debiasing corpus. By minimizing discrepancies between the debiasing corpus and pretraining data through augmented context, this approach ensures better alignment, enhancing language modeling capability. We then employ uncertainty-based filtering to exclude generated counterfactuals considered low-quality by the target smaller LMs (i.e., LMs to be debiased), further improving the fine-tuning corpus quality. Experimental results on gender bias benchmarks demonstrate that Context-CDA effectively mitigates bias without sacrificing language modeling performance while offering insights into social biases by analyzing distribution shifts in next-token generation probabilities.
- Abstract(参考訳): 微調整言語モデル(LM)における社会的バイアス軽減の課題は、下流のパフォーマンスを損なう可能性のある言語モデリング能力の潜在的な低下である。
ファクトファクトデータ拡張(CDA: Counterfactual Data Augmentation)は、現実世界の分布に不整合な合成データを生成することや、事前訓練されたコーパスにおける変更されたセンシティブな属性(例えば、性別)の社会的文脈を無視した過度に単純化されたデファクトデータを作成することでこの問題を強調する。
これらの制約に対処するために、我々は、大きなLMを用いてデバイアスコーパスの多様性と文脈関連性を高める、シンプルで効果的な文脈拡張型CDA手法であるContext-CDAを提案する。
劣化コーパスと拡張コンテキストによる事前学習データとの相違を最小化することにより、よりよい整合性を確保し、言語モデリング能力を向上させる。
次に、不確実性に基づくフィルタリングを用いて、ターゲットの小さいLM(すなわち、劣化するLM)により、低品質と見なされるデファクトを排除し、さらに微調整コーパスの品質を向上させる。
性別バイアスベンチマークの実験結果から、コンテキストCDAは言語モデリング性能を犠牲にすることなくバイアスを効果的に軽減し、次世代の確率における分布変化を分析して社会的バイアスに対する洞察を提供することを示した。
関連論文リスト
- Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [51.74394601039711]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Bridging the Fairness Gap: Enhancing Pre-trained Models with LLM-Generated Sentences [8.979854959662664]
本稿では,コヒーレント,属性バランス,意味的リッチな文を吸収することにより,事前学習言語モデル(PLM)における公平性(フェアジェンダー)を高めることを提案する。
これらの文は、アライメントの問題と負の移動のリスクにより、デバイアスに直接使われることはできない。
因果解析を適用し、因果効果を推定し、不整列文をフィルタリングし、PLMに組み込むための整列文を特定することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-12T12:32:43Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization [32.50246008433889]
事前学習された言語モデル (PLM) は、かなり流動的なテキストを生成する能力により、様々な自然言語生成(NLG)タスクで繁栄している。
これらのモデルは、一般的に有害な言語や社会的偏見である訓練コーパスにおいて有害な内容を捕捉し、再現することが観察され、深刻な道徳的問題を提起する。
我々は,この2つの問題を出力空間の整合性として共同で定式化する UDDIA と呼ばれるデトキシ化とデバイアス化の枠組みを初めて提案する。
論文 参考訳(メタデータ) (2022-10-10T08:45:25Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。