論文の概要: LFTF: Locating First and Then Fine-Tuning for Mitigating Gender Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.15475v1
- Date: Wed, 21 May 2025 12:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.647697
- Title: LFTF: Locating First and Then Fine-Tuning for Mitigating Gender Bias in Large Language Models
- Title(参考訳): LFTF: 大規模言語モデルにおけるジェンダーバイアスの緩和のための第1と第2の微調整
- Authors: Zhanyue Qin, Yue Ding, Deyuan Liu, Qingbin Liu, Junxian Cai, Xi Chen, Zhiying Tu, Dianhui Chu, Cuiyun Gao, Dianbo Sui,
- Abstract要約: 我々はGenBiasEvalとGenHintEvalというデータセットを提案する。
GenBiasEvalは、LDMにおける性別バイアスの程度を評価する責任がある。
GenHintEvalは、性ヒントを含むプロンプトと一致した応答を提供することができるかを評価するために使用される。
- 参考スコア(独自算出の注目度): 13.40656836132881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, Large Language Models (LLMs) have attracted widespread attention due to their powerful performance. However, due to the unavoidable exposure to socially biased data during training, LLMs tend to exhibit social biases, particularly gender bias. To better explore and quantifying the degree of gender bias in LLMs, we propose a pair of datasets named GenBiasEval and GenHintEval, respectively. The GenBiasEval is responsible for evaluating the degree of gender bias in LLMs, accompanied by an evaluation metric named AFGB-Score (Absolutely Fair Gender Bias Score). Meanwhile, the GenHintEval is used to assess whether LLMs can provide responses consistent with prompts that contain gender hints, along with the accompanying evaluation metric UB-Score (UnBias Score). Besides, in order to mitigate gender bias in LLMs more effectively, we present the LFTF (Locating First and Then Fine-Tuning) algorithm.The algorithm first ranks specific LLM blocks by their relevance to gender bias in descending order using a metric called BMI (Block Mitigating Importance Score). Based on this ranking, the block most strongly associated with gender bias is then fine-tuned using a carefully designed loss function. Numerous experiments have shown that our proposed LFTF algorithm can significantly mitigate gender bias in LLMs while maintaining their general capabilities.
- Abstract(参考訳): 現在、LLM(Large Language Models)はその強力なパフォーマンスのために広く注目を集めている。
しかし、トレーニング中の社会的偏見のあるデータへの避けられない露出のため、LSMは社会的偏見、特に性別偏見を示す傾向にある。
LLMにおけるジェンダーバイアスの程度をよりよく調査し定量化するために,GenBiasEval と GenHintEval という2つのデータセットを提案する。
GenBiasEvalは、AFGB-Score(Absolutely Fair Gender Bias Score)という評価指標とともに、LSMにおける性バイアスの程度を評価する責任がある。
一方、GenHintEvalは、性別のヒントを含むプロンプトと、それに付随する評価指標UB-Score(UnBias Score)に一致した応答を提供することができるかどうかを評価するために使用される。
さらに,LSMにおける性別バイアスをより効果的に緩和するために,LFTFアルゴリズム(Locating First and Then Fine-Tuning)を提案する。
このランキングに基づいて、性別バイアスに最も強く結びついているブロックは、慎重に設計された損失関数を用いて微調整される。
提案するLFTFアルゴリズムは,LSMにおける性別バイアスを大幅に軽減し,汎用性を維持できることを示す実験が数多く行われている。
関連論文リスト
- GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models [20.98831667981121]
大きな言語モデル(LLM)は、性別バイアスを示すコンテンツを生成する傾向がある。
GenderAlignデータセットは8kのシングルターンダイアログで構成されており、それぞれに "chosen" と "rejected" の応答がペアリングされている。
拒絶された」反応と比較すると、「ちょうせん」反応は性バイアスのレベルが低く、より高い品質を示す。
論文 参考訳(メタデータ) (2024-06-20T01:45:44Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - In-Contextual Gender Bias Suppression for Large Language Models [47.246504807946884]
大きな言語モデル (LLM) は、性バイアスの心配レベルをエンコードしていると報告されている。
手動で設計したテンプレートから構築したプリアンブルを提供することにより,LLMのバイアス発生を防止するバイアス抑制を提案する。
その結果,HellaSwag と COPA による下流タスク性能にバイアス抑制が悪影響があることが判明した。
論文 参考訳(メタデータ) (2023-09-13T18:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。