論文の概要: PRIDE -- Parameter-Efficient Reduction of Identity Discrimination for Equality in LLMs
- arxiv url: http://arxiv.org/abs/2507.13743v1
- Date: Fri, 18 Jul 2025 08:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.231713
- Title: PRIDE -- Parameter-Efficient Reduction of Identity Discrimination for Equality in LLMs
- Title(参考訳): PRIDE -- LLMにおける等式識別のパラメータ効率向上
- Authors: Maluna Menke, Thilo Hagendorff,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングコーパスに埋め込まれた性同一性偏見をしばしば再現する。
パラメータ効率のよい微細チューニング(PEFT)技術として,ローランク適応(LoRA)とソフトプロンプトチューニング(Soft-prompt tuning)を2つ評価した。
LoRAによる微調整は、これらのスコアを最大50ポイント削減し、中立性をほぼ0%から最大36%に引き上げる。
- 参考スコア(独自算出の注目度): 0.0552480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently reproduce the gender- and sexual-identity prejudices embedded in their training corpora, leading to outputs that marginalize LGBTQIA+ users. Hence, reducing such biases is of great importance. To achieve this, we evaluate two parameter-efficient fine-tuning (PEFT) techniques - Low-Rank Adaptation (LoRA) and soft-prompt tuning - as lightweight alternatives to full-model fine-tuning for mitigating such biases. Using the WinoQueer benchmark, we quantify bias in three open-source LLMs and observe baseline bias scores reaching up to 98 (out of 100) across a range of queer identities defined by gender and/or sexual orientation, where 50 would indicate neutrality. Fine-tuning with LoRA (< 0.1% additional parameters) on a curated QueerNews corpus reduces those scores by up to 50 points and raises neutrality from virtually 0% to as much as 36%. Soft-prompt tuning (10 virtual tokens) delivers only marginal improvements. These findings show that LoRA can deliver meaningful fairness gains with minimal computation. We advocate broader adoption of community-informed PEFT, the creation of larger queer-authored corpora, and richer evaluation suites beyond WinoQueer, coupled with ongoing audits to keep LLMs inclusive.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングコーパスに埋め込まれた性同一性偏見をしばしば再現し、LGBTQIA+ユーザーを疎外するアウトプットへと繋がる。
したがって、そのようなバイアスを減らすことは非常に重要である。
そこで本研究では,パラメータ効率の低い微調整(PEFT)技術であるLoRA(Lo-Rank Adaptation)とソフトプロンプトチューニング(Soft-prompt tuning)を,そのようなバイアスを緩和するためのフルモデル微調整の軽量な代替手段として評価する。
WinoQueer ベンチマークを用いて、3つのオープンソース LLM のバイアスを定量化し、50 が中立を示すような性別や性的指向によって定義された様々なクイアのアイデンティティの範囲で、ベースラインバイアススコアが 98 (100点中) に達するのを観測する。
キュレートされたQueerNewsコーパスのLoRAによる微調整(0.1%追加パラメータ)は、スコアを最大50ポイント削減し、中立性を事実上0%から36%に引き上げる。
ソフトプロンプトチューニング(10の仮想トークン)は、限界的な改善しか提供しない。
これらの結果から,LoRAは最小限の計算で有意義な公平性を得ることができることがわかった。
我々は,コミュニティインフォームドPEFTの導入,より大規模なクイアライズコーパスの作成,WinoQueerを超えてリッチな評価スイートの導入,LLMを包括的に維持するための継続的な監査の実施を提唱する。
関連論文リスト
- Towards Fair Rankings: Leveraging LLMs for Gender Bias Detection and Measurement [6.92803536773427]
自然言語処理(NLP)と情報検索(IR)システムの社会的バイアスは、現在進行中の課題である。
我々は,大言語モデル(LLM)を利用して,通過ランクの性別バイアスを検出し,測定することで,この問題に対処することを目指している。
そこで我々は,既存の制約に対処するために,CWEx (Class-wise Weighted Exposure) という新しいジェンダーフェアネス尺度を導入する。
論文 参考訳(メタデータ) (2025-06-27T16:39:12Z) - LFTF: Locating First and Then Fine-Tuning for Mitigating Gender Bias in Large Language Models [13.40656836132881]
我々はGenBiasEvalとGenHintEvalというデータセットを提案する。
GenBiasEvalは、LDMにおける性別バイアスの程度を評価する責任がある。
GenHintEvalは、性ヒントを含むプロンプトと一致した応答を提供することができるかを評価するために使用される。
論文 参考訳(メタデータ) (2025-05-21T12:49:37Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models [20.98831667981121]
大きな言語モデル(LLM)は、性別バイアスを示すコンテンツを生成する傾向がある。
GenderAlignデータセットは8kのシングルターンダイアログで構成されており、それぞれに "chosen" と "rejected" の応答がペアリングされている。
拒絶された」反応と比較すると、「ちょうせん」反応は性バイアスのレベルが低く、より高い品質を示す。
論文 参考訳(メタデータ) (2024-06-20T01:45:44Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。