論文の概要: Editable Fairness: Fine-Grained Bias Mitigation in Language Models
- arxiv url: http://arxiv.org/abs/2408.11843v1
- Date: Wed, 7 Aug 2024 17:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 14:01:15.493048
- Title: Editable Fairness: Fine-Grained Bias Mitigation in Language Models
- Title(参考訳): 編集可能なフェアネス:言語モデルにおける微粒バイアス緩和
- Authors: Ruizhe Chen, Yichen Li, Jianfei Yang, Joey Tianyi Zhou, Zuozhu Liu,
- Abstract要約: 個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
- 参考スコア(独自算出の注目度): 52.66450426729818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating fair and accurate predictions plays a pivotal role in deploying large language models (LLMs) in the real world. However, existing debiasing methods inevitably generate unfair or incorrect predictions as they are designed and evaluated to achieve parity across different social groups but leave aside individual commonsense facts, resulting in modified knowledge that elicits unreasonable or undesired predictions. In this paper, we first establish a new bias mitigation benchmark, BiaScope, which systematically assesses performance by leveraging newly constructed datasets and metrics on knowledge retention and generalization. Then, we propose a novel debiasing approach, Fairness Stamp (FAST), which enables fine-grained calibration of individual social biases. FAST identifies the decisive layer responsible for storing social biases and then calibrates its outputs by integrating a small modular network, considering both bias mitigation and knowledge-preserving demands. Comprehensive experiments demonstrate that FAST surpasses state-of-the-art baselines with superior debiasing performance while not compromising the overall model capability for knowledge retention and downstream predictions. This highlights the potential of fine-grained debiasing strategies to achieve fairness in LLMs. Code will be publicly available.
- Abstract(参考訳): 公正で正確な予測を生成することは、大規模言語モデル(LLM)を現実世界に展開する上で重要な役割を果たす。
しかし、既存のデバイアス法は必然的に不公平または不正な予測を発生させ、異なる社会集団間の平等を達成するために設計され、評価されるが、個々のコモンセンスの事実は別として、不合理または望ましくない予測を誘発する修正された知識をもたらす。
本稿では,新たに構築されたデータセットと,知識保持と一般化に関するメトリクスを活用することで,性能を体系的に評価する新しいバイアス緩和ベンチマークBiaScopeを確立する。
そこで我々は,個々人の社会的偏見をきめ細かなキャリブレーションが可能な,新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは、社会的バイアスを保存し、小さなモジュールネットワークを統合することで出力を校正する決定的なレイヤを特定し、バイアス軽減と知識保存の要求の両方を考慮している。
総合的な実験により、FASTは、知識保持と下流予測の全体的なモデル能力を損なうことなく、最先端のベースラインを越え、優れたデバイアス性能を持つことを示した。
このことは、LLMの公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
コードは公開されます。
関連論文リスト
- Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Test-Time Fairness and Robustness in Large Language Models [17.758735680493917]
Frontier Large Language Models (LLM) は、社会的に差別的であるか、その入力の刺激的な特徴に敏感である。
既存のソリューションは、LLMに公正か堅牢かを指示し、モデルのバイアスに対する暗黙の理解に依存します。
暗黙的な指示とは異なり、我々のプロンプト戦略は、フロンティアLSMのバイアスを一貫して減少させることを示す。
論文 参考訳(メタデータ) (2024-06-11T20:05:15Z) - Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness [10.081447621656523]
言語モデリング能力に影響を及ぼす影響は、高品質でコンテキストの長いデバイアスコーパスによって緩和することができる。
タスク依存型デバイアスングヒンジの有効性は、下流アプリケーションに使用されるタスク固有データとデバイアスドモデルの両方の量的バイアスレベルに影響を及ぼす。
本稿では,ソーシャル・フェア・デバイアスを下流ファインチューニング,ProSocialTuningに伝達する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T15:11:11Z) - Large Language Model Bias Mitigation from the Perspective of Knowledge Editing [12.855975783223236]
本研究では,個々のバイアス知識の微粒化による編集可能な公平性を実現するための,新しい脱バイアス手法であるFairness Stamp(FAST)を提案する。
FASTは、知識保存のための全体的なモデル能力を妨げることなく、最先端のベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2024-05-15T13:44:13Z) - Fair Multivariate Adaptive Regression Splines for Ensuring Equity and
Transparency [1.124958340749622]
学習過程に公平度を組み込んだMARSに基づく公正度予測モデルを提案する。
MARSは、特徴選択を行い、非線形関係を扱い、解釈可能な決定ルールを生成し、変数の最適分割基準を導出する非パラメトリック回帰モデルである。
実世界のデータにfairMARSモデルを適用し、精度とエクイティの観点からその有効性を実証する。
論文 参考訳(メタデータ) (2024-02-23T19:02:24Z) - Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。