論文の概要: GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2408.12494v1
- Date: Thu, 22 Aug 2024 15:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:12:21.502633
- Title: GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models
- Title(参考訳): GenderCARE: 大規模言語モデルにおけるジェンダーバイアスの評価と削減のための総合的なフレームワーク
- Authors: Kunsheng Tang, Wenbo Zhou, Jie Zhang, Aishan Liu, Gelei Deng, Shuai Li, Peigui Qi, Weiming Zhang, Tianwei Zhang, Nenghai Yu,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
- 参考スコア(独自算出の注目度): 73.23743278545321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited remarkable capabilities in natural language generation, but they have also been observed to magnify societal biases, particularly those related to gender. In response to this issue, several benchmarks have been proposed to assess gender bias in LLMs. However, these benchmarks often lack practical flexibility or inadvertently introduce biases. To address these shortcomings, we introduce GenderCARE, a comprehensive framework that encompasses innovative Criteria, bias Assessment, Reduction techniques, and Evaluation metrics for quantifying and mitigating gender bias in LLMs. To begin, we establish pioneering criteria for gender equality benchmarks, spanning dimensions such as inclusivity, diversity, explainability, objectivity, robustness, and realisticity. Guided by these criteria, we construct GenderPair, a novel pair-based benchmark designed to assess gender bias in LLMs comprehensively. Our benchmark provides standardized and realistic evaluations, including previously overlooked gender groups such as transgender and non-binary individuals. Furthermore, we develop effective debiasing techniques that incorporate counterfactual data augmentation and specialized fine-tuning strategies to reduce gender bias in LLMs without compromising their overall performance. Extensive experiments demonstrate a significant reduction in various gender bias benchmarks, with reductions peaking at over 90% and averaging above 35% across 17 different LLMs. Importantly, these reductions come with minimal variability in mainstream language tasks, remaining below 2%. By offering a realistic assessment and tailored reduction of gender biases, we hope that our GenderCARE can represent a significant step towards achieving fairness and equity in LLMs. More details are available at https://github.com/kstanghere/GenderCARE-ccs24.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示したが、社会的バイアス、特に性別に関するバイアスを増大させることも観察されている。
この問題に対して、LSMの性別バイアスを評価するために、いくつかのベンチマークが提案されている。
しかし、これらのベンチマークは実践的な柔軟性を欠いている場合や、必然的にバイアスを導入していない場合が多い。
これらの欠点に対処するために, 革新的基準, バイアス評価, 削減手法, 性別バイアスの定量化と緩和のための評価指標を含む包括的枠組みであるGenderCAREを紹介する。
まず,ジェンダー平等ベンチマークの先駆的基準を確立し,インクリシティ,多様性,説明可能性,客観性,頑健性,現実性などの領域にまたがる。
これらの基準で導かれたGenderPairは、LLMの性別バイアスを包括的に評価する新しいペアベースのベンチマークである。
我々のベンチマークは、トランスジェンダーや非バイナリ個人など、これまで見過ごされていた性別グループを含む、標準化された、現実的な評価を提供する。
さらに,その性能を損なうことなく,LDMにおけるジェンダーバイアスを低減するために,反ファクト的データ拡張と特別な微調整戦略を取り入れた効果的なデバイアス手法を開発した。
大規模な実験では、さまざまな性別バイアスのベンチマークが大幅に減少し、90%以上がピークに達し、17種類のLDMで平均35%以上が平均化されている。
重要なのは、これらの削減はメインストリームの言語タスクにおいて最小限のばらつきを持ち、2%以下であることだ。
ジェンダーケアは、現実的な評価とジェンダーバイアスの削減を提供することで、LLMにおける公正性とエクイティを達成するための重要なステップとなることを願っています。
詳細はhttps://github.com/kstanghere/GenderCARE-ccs24で確認できる。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) [82.57490175399693]
画像・テキスト・ビジョン言語アシスタント(VLA)22種における性別バイアスの検討
以上の結果から,VLAは実世界の作業不均衡など,データ中の人間のバイアスを再現する可能性が示唆された。
これらのモデルにおける性別バイアスを排除するため、微調整に基づくデバイアス法は、下流タスクにおけるデバイアスとパフォーマンスの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-10-25T05:59:44Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。