論文の概要: Fairness Dynamics During Training
- arxiv url: http://arxiv.org/abs/2506.01709v1
- Date: Mon, 02 Jun 2025 14:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.761655
- Title: Fairness Dynamics During Training
- Title(参考訳): トレーニング中の公正なダイナミクス
- Authors: Krishna Patel, Nivedha Sivakumar, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff,
- Abstract要約: 本研究では,Large Language Model (LLM) トレーニング中の公正度動態を調査し,バイアスや緩和の診断を可能にする。
モデル事前トレーニングにおいて, 平均ランクとJensen-Shannon Divergence by Partsという, 公平度ダイナミクスを均一に評価するための2つの新しい指標を紹介した。
- 参考スコア(独自算出の注目度): 4.75619837332918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate fairness dynamics during Large Language Model (LLM) training to enable the diagnoses of biases and mitigations through training interventions like early stopping; we find that biases can emerge suddenly and do not always follow common performance metrics. We introduce two new metrics to evaluate fairness dynamics holistically during model pre-training: Average Rank and Jensen-Shannon Divergence by Parts. These metrics provide insights into the Pythia models' progression of biases in gender prediction of occupations on the WinoBias dataset. By monitoring these dynamics, we find that (1) Pythia-6.9b is biased towards men; it becomes more performant and confident predicting "male" than "female" during training, (2) via early-stopping, Pythia-6.9b can exchange 1.7% accuracy on LAMBADA for a 92.5% increase in fairness, and (3) larger models can exhibit more bias; Pythia-6.9b makes more assumptions about gender than Pythia-160m, even when a subject's gender is not specified.
- Abstract(参考訳): 大規模言語モデル(LLM)トレーニング中の公平性のダイナミクスを調査し,早期停止などのトレーニング介入を通じてバイアスや緩和の診断を可能にする。
モデル事前トレーニングにおいて, 平均ランクとJensen-Shannon Divergence by Partsという, 公平度力学を均一に評価するための2つの新しい指標を紹介した。
これらのメトリクスは、WinoBiasデータセット上の職業の性別予測におけるPythiaモデルのバイアスの進行に関する洞察を提供する。
これらの動態をモニタリングすることにより、(1)Pythia-6.9bは男性に偏りがあり、(2)訓練中に「女性」よりも「男性」を「男性」と予測し、(2)早期検査により、Pythia-6.9bはLAMBADAで1.7%の精度を92.5%の公正さで交換し、(3)より大きなモデルはより偏りを示し、(3)Pythia-6.9bは、被験者の性別が特定されていない場合でも、Pythia-160mよりも性についてより仮定する。
関連論文リスト
- How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - AI Gender Bias, Disparities, and Fairness: Does Training Data Matter? [3.509963616428399]
この研究は、人工知能(AI)におけるジェンダー問題に関する広範囲にわたる課題について考察する。
それは、6つの評価項目で男女1000人以上の学生の反応を分析する。
その結果,混合学習モデルのスコアリング精度は,男性モデルと女性モデルとでは有意な差があることが示唆された。
論文 参考訳(メタデータ) (2023-12-17T22:37:06Z) - Evaluating Bias and Fairness in Gender-Neutral Pretrained
Vision-and-Language Models [23.65626682262062]
我々は,3種類の視覚・言語モデルを用いた事前学習および微調整後のバイアス増幅の定量化を行う。
全体として、事前学習および微調整後のバイアス増幅は独立である。
論文 参考訳(メタデータ) (2023-10-26T16:19:19Z) - Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender Perturbation over Fairytale Texts [80.21033860436081]
本稿では, モデルが非現実的データ拡張を通じて, ジェンダーステレオタイプ摂動にどう反応するかを検討する。
実験結果から, 性別の摂動に直面すると, モデルの性能低下がわずかであることがわかった。
反現実的なトレーニングデータに基づいて微調整を行うと、モデルは反ステレオタイプな物語に対してより堅牢になる。
論文 参考訳(メタデータ) (2023-10-16T22:25:09Z) - Identifying and examining machine learning biases on Adult dataset [0.7856362837294112]
この研究は、エンサンブルラーニングによる機械学習モデルバイアスの低減を念頭に置いている。
我々の厳密な方法論は、様々なカテゴリー変数にまたがる偏見を包括的に評価し、最終的に顕著な男女属性偏見を明らかにします。
本研究は,データ駆動型社会における倫理的考察とハイブリッドモデルの実現を提唱する。
論文 参考訳(メタデータ) (2023-10-13T19:41:47Z) - Language Models Get a Gender Makeover: Mitigating Gender Bias with
Few-Shot Data Interventions [50.67412723291881]
事前訓練された大きな言語モデルに存在する社会的バイアスが重要な問題である。
我々は,事前学習モデルにおける性別バイアスを低減するために,データ介入戦略を強力かつ簡単な手法として提案する。
論文 参考訳(メタデータ) (2023-06-07T16:50:03Z) - Gender Biases Unexpectedly Fluctuate in the Pre-training Stage of Masked
Language Models [0.0]
仮面言語モデルは、事前トレーニング中に性別バイアスを拾う。
個々のテンプレートの基本レベルには大きな変動が存在することを示す。
これらの変動は,事前学習コーパスにおける予測代名詞の確実性や職業頻度と相関しない。
論文 参考訳(メタデータ) (2022-11-26T18:43:05Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Do Neural Ranking Models Intensify Gender Bias? [13.37092521347171]
まず、IRモデルのランキングリストにおいて、性別関連概念の非バランスの存在度を定量化するための2つの指標を含むバイアス測定フレームワークを提供する。
これらのクエリをMS MARCOパッセージ検索コレクションに適用し、BM25モデルと最近のニューラルランキングモデルの性別バイアスを測定する。
結果は、すべてのモデルが男性に対して強く偏りを呈する一方で、神経モデル、特に文脈化された埋め込みモデルに基づくモデルは、性バイアスを著しく強めていることを示している。
論文 参考訳(メタデータ) (2020-05-01T13:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。