論文の概要: RobustDebias: Debiasing Language Models using Distributionally Robust Optimization
- arxiv url: http://arxiv.org/abs/2602.00405v1
- Date: Fri, 30 Jan 2026 23:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.166147
- Title: RobustDebias: Debiasing Language Models using Distributionally Robust Optimization
- Title(参考訳): RobustDebias:分散ロバスト最適化を用いた言語モデルのデバイアス化
- Authors: Deep Gandhi, Katyani Singh, Nidhi Hegde,
- Abstract要約: そこで本研究では,分散ロバスト最適化をデバイアス言語モデルに適用する機構である itRobustDebias を提案する。
我々のアプローチは、微調整中にモデルを複数の人口層に分散させ、任意のデータセットやタスクに一般化する。
- 参考スコア(独自算出の注目度): 0.39774453005697336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models have been shown to exhibit biases and social stereotypes. Prior work on debiasing these models has largely focused on modifying embedding spaces during pretraining, which is not scalable for large models. Fine-tuning pretrained models on task-specific datasets can both degrade model performance and amplify biases present in the fine-tuning data. We address bias amplification during fine-tuning rather than costly pretraining, focusing on BERT models due to their widespread use in language understanding tasks. While Empirical Risk Minimization effectively optimizes downstream performance, it often amplifies social biases during fine-tuning. To counter this, we propose \textit{RobustDebias}, a novel mechanism which adapts Distributionally Robust Optimization (DRO) to debias language models during fine-tuning. Our approach debiases models across multiple demographics during MLM fine-tuning and generalizes to any dataset or task. Extensive experiments on various language models show significant bias mitigation with minimal performance impact.
- Abstract(参考訳): 事前訓練された言語モデルはバイアスや社会的ステレオタイプを示すことが示されている。
これらのモデルのデバイアス化に関する以前の研究は、大規模なモデルには拡張性がない事前トレーニング中に埋め込み空間を変更することに集中していた。
タスク固有のデータセット上の微調整済みモデルでは、モデルのパフォーマンスを低下させ、微調整データに存在するバイアスを増幅することができる。
我々は,言語理解タスクに広く使用されているBERTモデルに着目し,コストのかかる事前学習よりも微調整時のバイアス増幅に対処する。
経験的リスク最小化は下流のパフォーマンスを効果的に最適化するが、微調整中に社会的バイアスを増幅することが多い。
そこで本研究では、分散ロバスト最適化(DRO)を微調整時にデビアス言語モデルに適用する新しいメカニズムである「textit{RobustDebias}」を提案する。
我々のアプローチは、MDMの微調整中にモデルを複数の人口層に分散させ、任意のデータセットやタスクに一般化する。
様々な言語モデルに対する大規模な実験は、性能への影響を最小限に抑えながら大きなバイアス緩和を示す。
関連論文リスト
- Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。
これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。
本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文 参考訳(メタデータ) (2025-05-13T21:50:03Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - Addressing Bias Through Ensemble Learning and Regularized Fine-Tuning [0.2812395851874055]
本稿では,AIモデルのバイアスを取り除くために,複数の手法を用いた包括的アプローチを提案する。
我々は、データ分割、局所訓練、正規化ファインチューニングを通じて、事前訓練されたモデルのカウンターバイアスで複数のモデルを訓練する。
我々は、単一のバイアスのないニューラルネットワークをもたらす知識蒸留を用いて、ソリューションを結論付けている。
論文 参考訳(メタデータ) (2024-02-01T09:24:36Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。