論文の概要: Detection, Classification, and Mitigation of Gender Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.12527v1
- Date: Sat, 14 Jun 2025 14:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.411517
- Title: Detection, Classification, and Mitigation of Gender Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるジェンダーバイアスの検出・分類・緩和
- Authors: Xiaoqing Cheng, Hongying Zan, Lulu Kong, Jinwang Song, Min Peng,
- Abstract要約: 性別バイアスの検出,分類,緩和において,大規模言語モデル(LLM)の能力を高める方法について検討する。
我々は、強化学習、思考の連鎖推論を採用し、異なるサブタスクを扱うための微調整を監督する。
NLPCC 2025Shared Task 7の3つのサブタスクのうち、第1位にランクインした。
- 参考スコア(独自算出の注目度): 6.762310697831219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large language models (LLMs), they have significantly improved efficiency across a wide range of domains. However, recent studies have revealed that LLMs often exhibit gender bias, leading to serious social implications. Detecting, classifying, and mitigating gender bias in LLMs has therefore become a critical research focus. In the NLPCC 2025 Shared Task 7: Chinese Corpus for Gender Bias Detection, Classification and Mitigation Challenge, we investigate how to enhance the capabilities of LLMs in gender bias detection, classification, and mitigation. We adopt reinforcement learning, chain-of-thoughts (CoT) reasoning, and supervised fine-tuning to handle different Subtasks. Specifically, for Subtasks 1 and 2, we leverage the internal reasoning capabilities of LLMs to guide multi-step thinking in a staged manner, which simplifies complex biased queries and improves response accuracy. For Subtask 3, we employ a reinforcement learning-based approach, annotating a preference dataset using GPT-4. We then apply Direct Preference Optimization (DPO) to mitigate gender bias by introducing a loss function that explicitly favors less biased completions over biased ones. Our approach ranked first across all three subtasks of the NLPCC 2025 Shared Task 7.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発により、幅広い領域にわたる効率が大幅に向上した。
しかし、近年の研究では、LSMがしばしば性バイアスを呈し、深刻な社会的影響をもたらすことが示されている。
LLMにおける性バイアスの検出、分類、緩和は、重要な研究の焦点となっている。
NLPCC 2025 Shared Task 7: Chinese Corpus for Gender Bias Detection, Classification and Mitigation Challengeにおいて,ジェンダーバイアスの検出,分類,緩和におけるLCMの能力向上について検討した。
我々は、強化学習とCoT推論を採用し、異なるサブタスクを扱うための微調整を監督する。
具体的には,Subtask 1 と 2 では LLM の内部推論機能を活用し,複雑な偏りのあるクエリを単純化し,応答精度を向上させる多段階思考を段階的に導く。
Subtask 3では強化学習に基づくアプローチを採用し,GPT-4を用いて好みのデータセットに注釈を付ける。
次に、バイアスのあるものよりもバイアスの少ないものを好む損失関数を導入することにより、性別バイアスを軽減するために、直接選好最適化(DPO)を適用する。
NLPCC 2025Shared Task 7の3つのサブタスクのうち、第1位にランクインした。
関連論文リスト
- LFTF: Locating First and Then Fine-Tuning for Mitigating Gender Bias in Large Language Models [13.40656836132881]
我々はGenBiasEvalとGenHintEvalというデータセットを提案する。
GenBiasEvalは、LDMにおける性別バイアスの程度を評価する責任がある。
GenHintEvalは、性ヒントを含むプロンプトと一致した応答を提供することができるかを評価するために使用される。
論文 参考訳(メタデータ) (2025-05-21T12:49:37Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) [82.57490175399693]
画像・テキスト・ビジョン言語アシスタント(VLA)22種における性別バイアスの検討
以上の結果から,VLAは実世界の作業不均衡など,データ中の人間のバイアスを再現する可能性が示唆された。
これらのモデルにおける性別バイアスを排除するため、微調整に基づくデバイアス法は、デバイアス化と性能維持の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-10-25T05:59:44Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。