論文の概要: Disclosure and Mitigation of Gender Bias in LLMs
- arxiv url: http://arxiv.org/abs/2402.11190v1
- Date: Sat, 17 Feb 2024 04:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:49:29.167862
- Title: Disclosure and Mitigation of Gender Bias in LLMs
- Title(参考訳): LLMにおけるジェンダーバイアスの開示と緩和
- Authors: Xiangjue Dong, Yibo Wang, Philip S. Yu, James Caverlee
- Abstract要約: 大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
- 参考スコア(独自算出の注目度): 64.79319733514266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) can generate biased responses. Yet previous
direct probing techniques contain either gender mentions or predefined gender
stereotypes, which are challenging to comprehensively collect. Hence, we
propose an indirect probing framework based on conditional generation. This
approach aims to induce LLMs to disclose their gender bias even without
explicit gender or stereotype mentions. We explore three distinct strategies to
disclose explicit and implicit gender bias in LLMs. Our experiments demonstrate
that all tested LLMs exhibit explicit and/or implicit gender bias, even when
gender stereotypes are not present in the inputs. In addition, an increased
model size or model alignment amplifies bias in most cases. Furthermore, we
investigate three methods to mitigate bias in LLMs via Hyperparameter Tuning,
Instruction Guiding, and Debias Tuning. Remarkably, these methods prove
effective even in the absence of explicit genders or stereotypes.
- Abstract(参考訳): 大規模言語モデル(LLM)はバイアス応答を生成する。
しかし、以前の直接探索技術には、包括的な収集が困難である性別の言及か、事前に定義された性別のステレオタイプが含まれている。
そこで,条件付き生成に基づく間接的探索フレームワークを提案する。
このアプローチは、明示的な性別やステレオタイプに言及することなく、LSMに性別バイアスを明らかにすることを目的としている。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を検討する。
実験の結果, 性別のステレオタイプが入力に存在しない場合においても, 検査対象のLDMは明示的および/または暗黙的な性別バイアスを示すことがわかった。
さらに、モデルサイズやモデルアライメントの増加は、ほとんどの場合、バイアスを増幅します。
さらに, ハイパーパラメータチューニング, インストラクションガイド, デビアスチューニングによるLLMのバイアス軽減手法について検討した。
驚くべきことに、これらの方法は明示的な性別やステレオタイプがない場合でも有効である。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models [20.98831667981121]
大きな言語モデル(LLM)は、性別バイアスを示すコンテンツを生成する傾向がある。
GenderAlignデータセットは8kのシングルターンダイアログで構成されており、それぞれに "chosen" と "rejected" の応答がペアリングされている。
拒絶された」反応と比較すると、「ちょうせん」反応は性バイアスのレベルが低く、より高い品質を示す。
論文 参考訳(メタデータ) (2024-06-20T01:45:44Z) - Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文 参考訳(メタデータ) (2024-05-06T18:09:32Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - In-Contextual Gender Bias Suppression for Large Language Models [47.246504807946884]
大きな言語モデル (LLM) は、性バイアスの心配レベルをエンコードしていると報告されている。
手動で設計したテンプレートから構築したプリアンブルを提供することにより,LLMのバイアス発生を防止するバイアス抑制を提案する。
その結果,HellaSwag と COPA による下流タスク性能にバイアス抑制が悪影響があることが判明した。
論文 参考訳(メタデータ) (2023-09-13T18:39:08Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。