論文の概要: In-Contextual Gender Bias Suppression for Large Language Models
- arxiv url: http://arxiv.org/abs/2309.07251v2
- Date: Tue, 20 Feb 2024 15:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 21:07:40.481150
- Title: In-Contextual Gender Bias Suppression for Large Language Models
- Title(参考訳): 大規模言語モデルの文脈内性バイアス抑制
- Authors: Daisuke Oba, Masahiro Kaneko, Danushka Bollegala
- Abstract要約: 大きな言語モデル (LLM) は、性バイアスの心配レベルをエンコードしていると報告されている。
手動で設計したテンプレートから構築したプリアンブルを提供することにより,LLMのバイアス発生を防止するバイアス抑制を提案する。
その結果,HellaSwag と COPA による下流タスク性能にバイアス抑制が悪影響があることが判明した。
- 参考スコア(独自算出の注目度): 47.246504807946884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their impressive performance in a wide range of NLP tasks, Large
Language Models (LLMs) have been reported to encode worrying-levels of gender
biases. Prior work has proposed debiasing methods that require human labelled
examples, data augmentation and fine-tuning of LLMs, which are computationally
costly. Moreover, one might not even have access to the model parameters for
performing debiasing such as in the case of closed LLMs such as GPT-4. To
address this challenge, we propose bias suppression that prevents biased
generations of LLMs by simply providing textual preambles constructed from
manually designed templates and real-world statistics, without accessing to
model parameters. We show that, using CrowsPairs dataset, our textual preambles
covering counterfactual statements can suppress gender biases in English LLMs
such as LLaMA2. Moreover, we find that gender-neutral descriptions of
gender-biased objects can also suppress their gender biases. Moreover, we show
that bias suppression has acceptable adverse effect on downstream task
performance with HellaSwag and COPA.
- Abstract(参考訳): 幅広いnlpタスクでの印象的なパフォーマンスにもかかわらず、大きな言語モデル(llm)は性バイアスの懸念レベルをエンコードしていると報告されている。
従来の研究では、人間のラベル付き例、データ拡張、計算コストのかかるLSMの微調整を必要とするデバイアス法が提案されている。
さらに、GPT-4のような閉LLMの場合のように、デバイアスを行うためのモデルパラメータにもアクセスできないかもしれない。
この課題に対処するために,モデルパラメータにアクセスせずに,手動で設計したテンプレートと実世界の統計から構築したテキストプリアンブルを提供することで,llmのバイアス発生を防止するバイアス抑制を提案する。
我々は,CrowsPairsデータセットを用いて,LLaMA2のような英語LLMの性別バイアスを抑えることができることを示す。
さらに,性バイアス対象の性中立的記述は,性バイアスを抑制できることがわかった。
さらに,HellaSwag と COPA による下流タスク性能に対するバイアス抑制効果が許容できることを示した。
関連論文リスト
- BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for
Fairer Instruction-Tuned Machine Translation [35.44115368160656]
機械翻訳モデルがジェンダーバイアスを示すか否かについて検討する。
We found that IFT model default to male-inflected translations, evengarding female occupational stereotypes。
実装が容易で効果的なバイアス緩和ソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-18T17:36:55Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Gender-tuning: Empowering Fine-tuning for Debiasing Pre-trained Language
Models [9.534831387705312]
既存のソリューションでは、デバイアスを行うためのトレーニングプロセスとデータセットが必要です。
ジェンダーチューニングは、Masked Language Modeling(MLM)トレーニング目標を微調整のトレーニングプロセスに統合する。
包括的実験により、ジェンダーチューニングはPLMにおける平均性差スコアにおいて最先端のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-07-20T01:48:51Z) - Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing [98.07536837448293]
大規模言語モデル(LLM)は、様々な人口層に対して有害で人間らしいバイアスを示すことが示されている。
生成言語モデルにおけるバイアスを頑健に測定するためのdesiderataのリストを紹介する。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。