論文の概要: Large Language Model Bias Mitigation from the Perspective of Knowledge Editing
- arxiv url: http://arxiv.org/abs/2405.09341v2
- Date: Sat, 29 Jun 2024 05:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:00:18.574370
- Title: Large Language Model Bias Mitigation from the Perspective of Knowledge Editing
- Title(参考訳): 知識編集の観点からの大規模言語モデルバイアス軽減
- Authors: Ruizhe Chen, Yichen Li, Zikai Xiao, Zuozhu Liu,
- Abstract要約: 本研究では,個々のバイアス知識の微粒化による編集可能な公平性を実現するための,新しい脱バイアス手法であるFairness Stamp(FAST)を提案する。
FASTは、知識保存のための全体的なモデル能力を妨げることなく、最先端のベースラインをはるかに上回っている。
- 参考スコア(独自算出の注目度): 12.855975783223236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing debiasing methods inevitably make unreasonable or undesired predictions as they are designated and evaluated to achieve parity across different social groups but leave aside individual facts, resulting in modified existing knowledge. In this paper, we first establish a new bias mitigation benchmark BiasKE leveraging existing and additional constructed datasets, which systematically assesses debiasing performance by complementary metrics on fairness, specificity, and generalization. Meanwhile, we propose a novel debiasing method, Fairness Stamp (FAST), which enables editable fairness through fine-grained calibration on individual biased knowledge. Comprehensive experiments demonstrate that FAST surpasses state-of-the-art baselines with remarkable debiasing performance while not hampering overall model capability for knowledge preservation, highlighting the prospect of fine-grained debiasing strategies for editable fairness in LLMs.
- Abstract(参考訳): 既存のデバイアス法は、必然的に不合理または望ましくない予測を、異なる社会グループ間で同等に評価され、個々の事実を放棄し、既存の知識を改変する。
本稿では,まず,既存および追加構築されたデータセットを活用するバイアス緩和ベンチマークBiasKEを構築し,公正性,特異性,一般化の相補的指標を用いて,バイアス低減性能を体系的に評価する。
一方,個々人のバイアス知識を微調整することで,編集可能な公平性を実現するための,新しい脱バイアス手法であるFairness Stamp(FAST)を提案する。
総合的な実験により、FASTは、知識保存のための全体的なモデル能力を妨げることなく、顕著なデバイアス性能で最先端のベースラインを超えることが示され、LLMの編集可能な公平性のためのきめ細かいデバイアス戦略の見通しが強調された。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness [10.081447621656523]
言語モデリング能力に影響を及ぼす影響は、高品質でコンテキストの長いデバイアスコーパスによって緩和することができる。
タスク依存型デバイアスングヒンジの有効性は、下流アプリケーションに使用されるタスク固有データとデバイアスドモデルの両方の量的バイアスレベルに影響を及ぼす。
本稿では,ソーシャル・フェア・デバイアスを下流ファインチューニング,ProSocialTuningに伝達する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T15:11:11Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Balancing Unobserved Confounding with a Few Unbiased Ratings in Debiased
Recommendations [4.960902915238239]
本稿では,既存のデバイアス法に適用可能な理論的に保証されたモデル非依存バランス手法を提案する。
提案手法では, バイアスデータを用いて学習したモデルパラメータを補正し, バイアスデータのバランス係数を適応的に学習することで, バイアスデータを完全に活用する。
論文 参考訳(メタデータ) (2023-04-17T08:56:55Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Fairness and Explainability: Bridging the Gap Towards Fair Model
Explanations [12.248793742165278]
我々は、説明に基づく手続き指向公正の新たな視点を提示することにより、公正性と説明可能性のギャップを埋める。
本稿では,複数の目的を同時に達成する包括的公正性アルゴリズム (CFA) を提案する。
論文 参考訳(メタデータ) (2022-12-07T18:35:54Z) - Information-Theoretic Bias Reduction via Causal View of Spurious
Correlation [71.9123886505321]
本稿では,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。
本稿では,バイアス正規化損失を含むアルゴリズムバイアスに対する新しいデバイアスフレームワークを提案する。
提案したバイアス測定とデバイアス法は、多様な現実シナリオで検証される。
論文 参考訳(メタデータ) (2022-01-10T01:19:31Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Uncertainty Calibration for Ensemble-Based Debiasing Methods [27.800387167841972]
本稿では,アンサンブルに基づくデバイアス法におけるバイアスのみのモデルに焦点をあてる。
バイアスのみのモデルの不正確な不確実性推定により, バイアス除去性能が損なわれることを示す。
そこで本研究では,バイアスのみのモデルでキャリブレーションを行い,三段階のアンサンブルに基づくデバイアス機構を実現することを提案する。
論文 参考訳(メタデータ) (2021-11-07T15:13:32Z) - Towards Debiasing NLU Models from Unknown Biases [70.31427277842239]
NLUモデルは、しばしばバイアスを利用して、意図したタスクを適切に学習することなく、データセット固有の高いパフォーマンスを達成する。
本稿では、モデルがバイアスを事前に知ることなく、主にバイアスを利用するのを防ぐ自己バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-25T15:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。