論文の概要: Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation
- arxiv url: http://arxiv.org/abs/2311.00306v1
- Date: Wed, 1 Nov 2023 05:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:45:51.203894
- Title: Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation
- Title(参考訳): LLM条件テキスト生成による明示的・暗黙的ジェンダーバイアスの探索
- Authors: Xiangjue Dong, Yibo Wang, Philip S. Yu, James Caverlee
- Abstract要約: 大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
- 参考スコア(独自算出の注目度): 64.79319733514266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) can generate biased and toxic responses. Yet
most prior work on LLM gender bias evaluation requires predefined
gender-related phrases or gender stereotypes, which are challenging to be
comprehensively collected and are limited to explicit bias evaluation. In
addition, we believe that instances devoid of gender-related language or
explicit stereotypes in inputs can still induce gender bias in LLMs. Thus, in
this work, we propose a conditional text generation mechanism without the need
for predefined gender phrases and stereotypes. This approach employs three
types of inputs generated through three distinct strategies to probe LLMs,
aiming to show evidence of explicit and implicit gender biases in LLMs. We also
utilize explicit and implicit evaluation metrics to evaluate gender bias in
LLMs under different strategies. Our experiments demonstrate that an increased
model size does not consistently lead to enhanced fairness and all tested LLMs
exhibit explicit and/or implicit gender bias, even when explicit gender
stereotypes are absent in the inputs.
- Abstract(参考訳): 大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
しかし、LLMのジェンダーバイアス評価に関する多くの先行研究は、包括的に収集することが困難であり、明示的なバイアス評価に限定されている、あらかじめ定義されたジェンダー関連のフレーズやジェンダーステレオタイプを必要とする。
さらに、入力中の性関連言語や明示的なステレオタイプを欠いた例は、LSMにおける性バイアスを引き起こす可能性があると信じている。
そこで本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
このアプローチでは、3つの異なる戦略によって生成された3種類の入力を用いてLSMを探索し、LSMの明示的および暗黙的な性バイアスの証拠を示す。
また,LSMの性別バイアスを評価するために,明示的・暗黙的な評価指標を用いた。
実験により, モデルサイズが増大すると, 正当性が常に向上することはなく, 検査対象のLDMは, 入力に明示的な性別ステレオタイプが存在しない場合でも, 明示的および/または暗黙的な性別バイアスを示すことがわかった。
関連論文リスト
- Gender Bias in LLM-generated Interview Responses [1.6124402884077915]
本研究は, モデル, 質問タイプ, 職種にまたがって, LLM生成面接応答の多面的監査を行うための3つのLCMを評価した。
その結果,男女の偏見は一貫しており,性別のステレオタイプや仕事の優位性と密接に一致していることが判明した。
論文 参考訳(メタデータ) (2024-10-28T05:08:08Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - From 'Showgirls' to 'Performers': Fine-tuning with Gender-inclusive Language for Bias Reduction in LLMs [1.1049608786515839]
我々は、ジェンダー・インクリシティを促進するために、大規模言語モデル内の言語構造に適応する。
私たちの作品の焦点は英語の「In'show-Girl'」や「man-cave」のような男女排他的な接尾辞である。
論文 参考訳(メタデータ) (2024-07-05T11:31:30Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文 参考訳(メタデータ) (2024-05-06T18:09:32Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - In-Contextual Gender Bias Suppression for Large Language Models [47.246504807946884]
大きな言語モデル (LLM) は、性バイアスの心配レベルをエンコードしていると報告されている。
手動で設計したテンプレートから構築したプリアンブルを提供することにより,LLMのバイアス発生を防止するバイアス抑制を提案する。
その結果,HellaSwag と COPA による下流タスク性能にバイアス抑制が悪影響があることが判明した。
論文 参考訳(メタデータ) (2023-09-13T18:39:08Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。