論文の概要: Disclosure and Mitigation of Gender Bias in LLMs
- arxiv url: http://arxiv.org/abs/2402.11190v1
- Date: Sat, 17 Feb 2024 04:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:49:29.167862
- Title: Disclosure and Mitigation of Gender Bias in LLMs
- Title(参考訳): LLMにおけるジェンダーバイアスの開示と緩和
- Authors: Xiangjue Dong, Yibo Wang, Philip S. Yu, James Caverlee
- Abstract要約: 大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
- 参考スコア(独自算出の注目度): 64.79319733514266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) can generate biased responses. Yet previous
direct probing techniques contain either gender mentions or predefined gender
stereotypes, which are challenging to comprehensively collect. Hence, we
propose an indirect probing framework based on conditional generation. This
approach aims to induce LLMs to disclose their gender bias even without
explicit gender or stereotype mentions. We explore three distinct strategies to
disclose explicit and implicit gender bias in LLMs. Our experiments demonstrate
that all tested LLMs exhibit explicit and/or implicit gender bias, even when
gender stereotypes are not present in the inputs. In addition, an increased
model size or model alignment amplifies bias in most cases. Furthermore, we
investigate three methods to mitigate bias in LLMs via Hyperparameter Tuning,
Instruction Guiding, and Debias Tuning. Remarkably, these methods prove
effective even in the absence of explicit genders or stereotypes.
- Abstract(参考訳): 大規模言語モデル(LLM)はバイアス応答を生成する。
しかし、以前の直接探索技術には、包括的な収集が困難である性別の言及か、事前に定義された性別のステレオタイプが含まれている。
そこで,条件付き生成に基づく間接的探索フレームワークを提案する。
このアプローチは、明示的な性別やステレオタイプに言及することなく、LSMに性別バイアスを明らかにすることを目的としている。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を検討する。
実験の結果, 性別のステレオタイプが入力に存在しない場合においても, 検査対象のLDMは明示的および/または暗黙的な性別バイアスを示すことがわかった。
さらに、モデルサイズやモデルアライメントの増加は、ほとんどの場合、バイアスを増幅します。
さらに, ハイパーパラメータチューニング, インストラクションガイド, デビアスチューニングによるLLMのバイアス軽減手法について検討した。
驚くべきことに、これらの方法は明示的な性別やステレオタイプがない場合でも有効である。
関連論文リスト
- Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - In-Contextual Gender Bias Suppression for Large Language Models [47.246504807946884]
大きな言語モデル (LLM) は、性バイアスの心配レベルをエンコードしていると報告されている。
手動で設計したテンプレートから構築したプリアンブルを提供することにより,LLMのバイアス発生を防止するバイアス抑制を提案する。
その結果,HellaSwag と COPA による下流タスク性能にバイアス抑制が悪影響があることが判明した。
論文 参考訳(メタデータ) (2023-09-13T18:39:08Z) - Gender bias and stereotypes in Large Language Models [0.6882042556551611]
本稿では,ジェンダーステレオタイプに関する大規模言語モデルの振る舞いについて考察する。
我々は、WinoBiasとは違って、性別バイアスの存在をテストするための単純なパラダイムを用いています。
a) LLMは、人の性別とステレオタイプ的に一致した職業を選択する確率が3~6倍、(b) これらの選択は、公務員の統計に反映された基礎的真実よりも人々の知覚に適合し、(d) LLMは、我々の研究項目の95%の時間において重要な曖昧さを無視する。
論文 参考訳(メタデータ) (2023-08-28T22:32:05Z) - Evaluating Gender Bias in Natural Language Inference [5.034017602990175]
推論による自然言語理解における性別バイアスの評価手法を提案する。
チャレンジタスクを使用して、職業を用いたジェンダーステレオタイプの存在に関する最先端のNLIモデルを調査します。
その結果,mnliとsnliデータセットでトレーニングされた3モデルでは,性別による予測誤差が有意に高いことが示唆された。
論文 参考訳(メタデータ) (2021-05-12T09:41:51Z) - Stereotype and Skew: Quantifying Gender Bias in Pre-trained and
Fine-tuned Language Models [5.378664454650768]
本稿では,文脈言語モデルにおける性別バイアスの定量化と分析を行う,スキューとステレオタイプという2つの直感的な指標を提案する。
性別のステレオタイプは、アウト・オブ・ボックスモデルにおける性別の歪とほぼ負の相関関係にあり、これらの2種類のバイアスの間にトレードオフが存在することを示唆している。
論文 参考訳(メタデータ) (2021-01-24T10:57:59Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。