論文の概要: Mitigating Gender Bias via Fostering Exploratory Thinking in LLMs
- arxiv url: http://arxiv.org/abs/2505.17217v1
- Date: Thu, 22 May 2025 18:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.654601
- Title: Mitigating Gender Bias via Fostering Exploratory Thinking in LLMs
- Title(参考訳): LLMにおける探究的思考によるジェンダーバイアスの緩和
- Authors: Kangda Wei, Hasnat Md Abdullah, Ruihong Huang,
- Abstract要約: 大きな言語モデル(LLM)は、しばしば性別バイアスを示し、男女の扱いが不平等になる。
我々のアプローチは、構造的に同一で道徳的に曖昧なシナリオにおいて、男性と女性の主人公を特徴とするストーリーペアを生成するようモデルに促す。
不整合が発生すると、モデルはバランスのとれた性中立的な判断を生み出すように誘導される。
- 参考スコア(独自算出の注目度): 15.365993658296016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) often exhibit gender bias, resulting in unequal treatment of male and female subjects across different contexts. To address this issue, we propose a novel data generation framework that fosters exploratory thinking in LLMs. Our approach prompts models to generate story pairs featuring male and female protagonists in structurally identical, morally ambiguous scenarios, then elicits and compares their moral judgments. When inconsistencies arise, the model is guided to produce balanced, gender-neutral judgments. These story-judgment pairs are used to fine-tune or optimize the models via Direct Preference Optimization (DPO). Experimental results show that our method significantly reduces gender bias while preserving or even enhancing general model capabilities. We will release the code and generated data.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば性別バイアスを示し、異なる文脈で男女が不平等に扱われる。
この問題に対処するために,LLMにおける探索的思考を促進する新しいデータ生成フレームワークを提案する。
我々のアプローチは、構造的に同一で、道徳的に曖昧なシナリオにおいて、男性と女性の主人公を特集したストーリーペアをモデルに作り出し、それらの道徳的判断を引き合いに出して比較する。
不整合が発生すると、モデルはバランスのとれた性中立的な判断を生み出すように誘導される。
これらのストーリーアジャッジペアは、DPO(Direct Preference Optimization)を通じてモデルを微調整したり、最適化するために使用される。
実験結果から,本手法は一般的なモデル機能を維持したり,強化したりしながら,性別バイアスを著しく低減することが示された。
コードと生成されたデータをリリースします。
関連論文リスト
- GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Exploring Gender Bias in Retrieval Models [2.594412743115663]
情報検索におけるジェンダーバイアスの緩和は,ステレオタイプの普及を避けるために重要である。
本研究では,(1)クエリに対するドキュメントの関連性,(2)ドキュメントの“ジェンダー”という2つのコンポーネントからなるデータセットを用いる。
我々は,大容量のBERTエンコーダの完全微調整を行う場合,IRの事前学習モデルはゼロショット検索タスクではうまく動作しないことを示す。
また、事前学習されたモデルには性別バイアスがあり、検索された記事は女性よりも男性が多い傾向にあることを示した。
論文 参考訳(メタデータ) (2022-08-02T21:12:05Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Adversarial Examples Generation for Reducing Implicit Gender Bias in
Pre-trained Models [2.6329024988388925]
文レベルで暗黙の性別バイアスを自動生成する手法と,性別バイアスを測定する指標を提案する。
このメトリクスは、事前訓練されたモデルからサンプルの生成を導くのに使用される。そのため、これらの例は事前訓練されたモデルに対する攻撃を強制するために使用できる。
論文 参考訳(メタデータ) (2021-10-03T20:22:54Z) - Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution
and Machine Translation [10.542861450223128]
3つのドメインのコーパスにおいて,ステレオタイプおよび非ステレオタイプなジェンダーロール代入を示す文法パターンが発見された。
我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。
論文 参考訳(メタデータ) (2021-09-08T18:14:11Z) - First the worst: Finding better gender translations during beam search [19.921216907778447]
文法的ジェンダー翻訳における体系的誤りによるジェンダーバイアスに着目した。
ソース文から自動的に得られる性別特徴を用いて,nbestリストのランク付け実験を行った。
これらの技術を組み合わせることで、追加のバイリンガルデータや追加のNMTモデルを必要としないWinoMT精度が大幅に向上します。
論文 参考訳(メタデータ) (2021-04-15T12:53:30Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。