論文の概要: Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble
- arxiv url: http://arxiv.org/abs/2409.13705v2
- Date: Tue, 22 Oct 2024 01:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:46:28.509162
- Title: Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble
- Title(参考訳): フェアネス・アウェア・アンサンブルによるテキスト安全分類器の劣化
- Authors: Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby,
- Abstract要約: クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。
モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。
提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
- 参考スコア(独自算出の注目度): 2.1450827490014865
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Increasing use of large language models (LLMs) demand performant guardrails to ensure the safety of inputs and outputs of LLMs. When these safeguards are trained on imbalanced data, they can learn the societal biases. We present a light-weight, post-processing method for mitigating counterfactual fairness in closed-source text safety classifiers. Our approach involves building an ensemble that not only outperforms the input classifiers and policy-aligns them, but also acts as a debiasing regularizer. We introduce two threshold-agnostic metrics to assess the counterfactual fairness of a model, and demonstrate how combining these metrics with Fair Data Reweighting (FDW) helps mitigate biases. We create an expanded Open AI dataset, and a new templated LLM-generated dataset based on user-prompts, both of which are counterfactually balanced across identity groups and cover four key areas of safety; we will work towards publicly releasing these datasets. Our results show that our approach improves counterfactual fairness with minimal impact on model performance.
- Abstract(参考訳): 大規模言語モデル (LLMs) の使用が増加し、LLMの入力と出力の安全性を確保するために性能ガードレールが要求される。
これらのセーフガードが不均衡なデータに基づいて訓練されると、社会的バイアスを学ぶことができる。
クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。
我々のアプローチは、入力分類器を上回り、ポリシーアライメントするだけでなく、デバイアスレギュレータとしても機能するアンサンブルを構築することである。
モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。
拡張されたOpen AIデータセットと、ユーザプロンプトに基づいた新しいテンプレート付きLLM生成データセットを作成します。
提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
関連論文リスト
- Nob-MIAs: Non-biased Membership Inference Attacks Assessment on Large Language Models with Ex-Post Dataset Construction [37.69303106863453]
メンバーシップ推論攻撃 (MIA) は、特定の文書が与えられたLarge Language Models (LLM) プリトレーニングで使用されたかどうかを検出することを目的としている。
本稿では,LLMにおけるMIAの評価について述べる。
我々は、より公平なMIA評価のために、非バイアス'と非分類'のデータセットを作成するアルゴリズムを提案し、検証する。
論文 参考訳(メタデータ) (2024-08-12T07:49:28Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Group Robust Classification Without Any Group Information [5.053622900542495]
この研究は、グループロバストネスに対する現在のバイアス非教師アプローチが、最適なパフォーマンスを達成するためにグループ情報に依存し続けていることを主張する。
バイアスラベルは依然として効果的なモデル選択に不可欠であり、現実のシナリオにおけるこれらの手法の実用性を制限する。
本稿では, 偏りのないモデルに対して, 完全にバイアスのない方法でトレーニングし, 妥当性を検証するための改訂手法を提案する。
論文 参考訳(メタデータ) (2023-10-28T01:29:18Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Fairness Reprogramming [42.65700878967251]
モデル再プログラミング手法を取り入れたFairRe Programと呼ばれる新しい汎用フェアネス学習パラダイムを提案する。
具体的には、FairRe Programはモデルを変更することができず、フェアネストリガと呼ばれる一連の摂動を入力に追加するケースについて検討している。
我々は,固定MLモデルの出力予測において,公平性トリガが効果的に人口統計バイアスを曖昧にすることができることを理論的および実証的に示す。
論文 参考訳(メタデータ) (2022-09-21T09:37:00Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。