論文の概要: Evaluating Gender Bias Transfer between Pre-trained and Prompt-Adapted Language Models
- arxiv url: http://arxiv.org/abs/2412.03537v1
- Date: Wed, 04 Dec 2024 18:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:14.811974
- Title: Evaluating Gender Bias Transfer between Pre-trained and Prompt-Adapted Language Models
- Title(参考訳): 事前学習型とプロンプト適応型言語モデル間のジェンダーバイアス伝達の評価
- Authors: Natalie Mackraz, Nivedha Sivakumar, Samira Khorshidi, Krishna Patel, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff,
- Abstract要約: 本研究では,迅速な適応の下でのバイアス伝達仮説(BTH)について検討する。
LLMが公正な行動や偏見を示すよう特別に促された場合でも, バイアス伝達は強く相関していることがわかった。
本研究は, プレトレーニングLDMにおける公平性の確保の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 4.274270062767065
- License:
- Abstract: Large language models (LLMs) are increasingly being adapted to achieve task-specificity for deployment in real-world decision systems. Several previous works have investigated the bias transfer hypothesis (BTH) by studying the effect of the fine-tuning adaptation strategy on model fairness to find that fairness in pre-trained masked language models have limited effect on the fairness of models when adapted using fine-tuning. In this work, we expand the study of BTH to causal models under prompt adaptations, as prompting is an accessible, and compute-efficient way to deploy models in real-world systems. In contrast to previous works, we establish that intrinsic biases in pre-trained Mistral, Falcon and Llama models are strongly correlated (rho >= 0.94) with biases when the same models are zero- and few-shot prompted, using a pronoun co-reference resolution task. Further, we find that bias transfer remains strongly correlated even when LLMs are specifically prompted to exhibit fair or biased behavior (rho >= 0.92), and few-shot length and stereotypical composition are varied (rho >= 0.97). Our findings highlight the importance of ensuring fairness in pre-trained LLMs, especially when they are later used to perform downstream tasks via prompt adaptation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界の意思決定システムにおけるタスク固有性を達成するために、ますます適応しつつある。
いくつかの先行研究は、微調整適応戦略がモデルフェアネスに与える影響を調べた結果、事前学習されたマスキング言語モデルの公正性がモデルフェアネスに限定的な影響があることが判明した。
本研究は,実世界のシステムにモデルをデプロイするための,アクセシブルで計算効率のよい方法として,迅速な適応の下でのBTHの研究を因果モデルに拡張するものである。
従来の研究とは対照的に、事前学習されたMistral, Falcon, Llamaモデルの内在バイアスは、同じモデルがゼロおよび少数ショットトリガーのときのバイアスと強く相関している(rho >= 0.94)。
さらに, LLMが公正あるいは偏見的行動を示すよう特別に促された場合(rho >= 0.92)においても, バイアス伝達は強く相関し, ショット長とステレオタイプ組成は変化する(rho >= 0.97)。
以上の結果から,訓練済みLLMの公平性確保の重要性が浮き彫りになった。
関連論文リスト
- Towards the Mitigation of Confirmation Bias in Semi-supervised Learning: a Debiased Training Perspective [6.164100243945264]
半教師付き学習(SSL)は、モデルが特定のクラスを不均等に好むという、一般的に確認バイアスを示す。
SSLのデバイアスドトレーニングのための統合フレームワークであるTaMatchを紹介します。
TaMatchは,様々な課題の画像分類タスクにおいて,既存の最先端手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-09-26T21:50:30Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Fairness and Accuracy under Domain Generalization [10.661409428935494]
機械学習アルゴリズムが特定の社会グループに偏っているのではないかという懸念が持ち上がっている。
MLモデルを公平にするための多くのアプローチが提案されているが、トレーニングとデプロイメントにおけるデータ分散が同一であるという仮定に依存しているのが一般的である。
本研究では,テスト時のデータのサンプル化が可能な領域一般化の下でのフェアネスと精度の両面について検討する。
論文 参考訳(メタデータ) (2023-01-30T23:10:17Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。