論文の概要: Equilibrium Dynamics and Mitigation of Gender Bias in Synthetically Generated Data
- arxiv url: http://arxiv.org/abs/2511.10689v1
- Date: Wed, 12 Nov 2025 02:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.269386
- Title: Equilibrium Dynamics and Mitigation of Gender Bias in Synthetically Generated Data
- Title(参考訳): 合成データを用いたジェンダーバイアスの平衡ダイナミクスと緩和
- Authors: Ashish Kattamuri, Arpita Vats, Harshwardhan Fartale, Rahul Raja, Akshata Kishore Moharir, Ishita Prasad,
- Abstract要約: 本稿では,ルールベースのパターンマッチング,埋め込み型セマンティック類似性,下流タスク性能を用いた3世代合成テキスト生成におけるジェンダーバイアスのダイナミクスについて検討する。
低初期偏差はモデル固有の偏差レベル(+36%)に対して増幅し、高初期偏差はそれに対して減衰する(26%)。
ジェンダースワップ付き変異を導入したコントラスト増強は、埋め込みベースのバイアススコアが高いにもかかわらず、下流バイアス(初期偏差が98.8%、平均偏差が91%)を大幅に減少させることが判明した。
- 参考スコア(独自算出の注目度): 3.1526281887627587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recursive prompting with large language models enables scalable synthetic dataset generation but introduces the risk of bias amplification. We investigate gender bias dynamics across three generations of recursive text generation using three complementary evaluation frameworks: rule-based pattern matching, embedding-based semantic similarity, and downstream task performance. Experiments with three initial bias levels (0.1, 0.3, 0.6) and four mitigation strategies reveal equilibrium dynamics rather than monotonic amplification. The low initial bias amplifies toward the model's inherent bias level (+36%), whereas the high initial bias decays toward it (-26%). Among mitigation methods, contrastive augmentation, which introduces gender-swapped variants, achieves significant downstream bias reduction (98.8% for low initial bias and 91% on average) despite producing higher embedding-based bias scores. This paradox demonstrates that semantic similarity metrics may diverge from behavioral fairness outcomes, highlighting the need for multidimensional evaluation in responsible synthetic data generation.
- Abstract(参考訳): 大規模な言語モデルによる再帰的プロンプトにより、スケーラブルな合成データセット生成が可能になるが、バイアス増幅のリスクが生じる。
本稿では,ルールベースのパターンマッチング,埋め込み型セマンティック類似性,下流タスク性能の3つの相補的評価フレームワークを用いて,3世代にわたるジェンダーバイアスのダイナミクスについて検討する。
3つの初期バイアスレベル(0.1, 0.3, 0.6)と4つの緩和戦略による実験は、モノトニック増幅よりも平衡ダイナミクスが明らかである。
初期偏差の低さはモデル固有の偏差レベル(+36%)に対して増幅し、初期偏差の高さはそれに対して減衰する(26%)。
緩和法の中で、ジェンダースワップ付き変異を導入した対照的な増強法は、埋め込みベースのバイアススコアが高いにもかかわらず、下流バイアス(初期バイアスが98.8%、平均で91%)を大幅に減少させる。
このパラドックスは、意味的類似度指標が行動フェアネスの結果から分岐する可能性を示し、責任ある合成データ生成における多次元評価の必要性を強調している。
関連論文リスト
- BLADE: Bias-Linked Adaptive DEbiasing [2.7352017408152083]
BLADEは、バイアスやバイアスを伴うサンプルの事前知識を必要としない、生成的デバイアスのフレームワークである。
我々は,複数のベンチマークデータセット上でBLADEを評価し,最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-10-05T12:28:54Z) - Bias Amplification: Large Language Models as Increasingly Biased Media [12.376194654498383]
大規模言語モデル(LLM)における政治的偏見の増幅を測定するためのベンチマークを導入する。
GPT-2を用いた実証研究により,反復的合成訓練サイクルに対する政治的偏りの持続的および実質的な増大が明らかとなった。
我々は,3つの緩和戦略,オーバーフィッティング,保存,蓄積を評価し,バイアス増幅がモデル崩壊から独立して持続することを示す。
論文 参考訳(メタデータ) (2024-10-19T22:53:27Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Fighting Fire with Fire: Contrastive Debiasing without Bias-free Data
via Generative Bias-transformation [31.944147533327058]
生成バイアス変換(CDvG)によるコントラスト劣化
本稿では, バイアスラベルやバイアスのないサンプルを伴わないCDvG (Generative Bias-Transformation) によるコントラスト的デバイアス(Contrastive Debiasing) 手法を提案する。
本手法は, バイアスのないサンプルが不足あるいは欠落している場合に, 従来の手法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2021-12-02T07:16:06Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z) - Why resampling outperforms reweighting for correcting sampling bias with
stochastic gradients [10.860844636412862]
バイアスデータセット上で機械学習モデルをトレーニングするには、バイアスを補うための補正テクニックが必要である。
我々は、目的関数を維持するためにサブグループの比率を再均衡させる2つの一般的な手法、再サンプリングと再重み付けについて検討する。
論文 参考訳(メタデータ) (2020-09-28T16:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。