論文の概要: Bias after Prompting: Persistent Discrimination in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.08146v1
- Date: Tue, 09 Sep 2025 20:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.247233
- Title: Bias after Prompting: Persistent Discrimination in Large Language Models
- Title(参考訳): 試行錯誤後のバイアス:大規模言語モデルにおける永続的識別
- Authors: Nivedha Sivakumar, Natalie Mackraz, Samira Khorshidi, Krishna Patel, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff,
- Abstract要約: 我々は、バイアスがプロンプトを通して伝達可能であること、そして人気のあるプロンプトベースの緩和手法が、バイアスの転送を常に妨げていないことを発見した。
具体的には、内因性バイアスと即時適応後のバイアスの相関は、人口統計学やタスク全体では緩やかに保たれている。
我々は、いくつかのプロンプトベースのデバイアス戦略を評価し、異なるアプローチは異なる強みを持っているが、モデル、タスク、人口統計学におけるバイアス伝達を一貫して減少させることは決してない。
- 参考スコア(独自算出の注目度): 9.558263120749356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A dangerous assumption that can be made from prior work on the bias transfer hypothesis (BTH) is that biases do not transfer from pre-trained large language models (LLMs) to adapted models. We invalidate this assumption by studying the BTH in causal models under prompt adaptations, as prompting is an extremely popular and accessible adaptation strategy used in real-world applications. In contrast to prior work, we find that biases can transfer through prompting and that popular prompt-based mitigation methods do not consistently prevent biases from transferring. Specifically, the correlation between intrinsic biases and those after prompt adaptation remain moderate to strong across demographics and tasks -- for example, gender (rho >= 0.94) in co-reference resolution, and age (rho >= 0.98) and religion (rho >= 0.69) in question answering. Further, we find that biases remain strongly correlated when varying few-shot composition parameters, such as sample size, stereotypical content, occupational distribution and representational balance (rho >= 0.90). We evaluate several prompt-based debiasing strategies and find that different approaches have distinct strengths, but none consistently reduce bias transfer across models, tasks or demographics. These results demonstrate that correcting bias, and potentially improving reasoning ability, in intrinsic models may prevent propagation of biases to downstream tasks.
- Abstract(参考訳): バイアス伝達仮説(BTH)の先行研究から得られる危険な仮定は、バイアスが事前訓練された大言語モデル(LLM)から適応モデルへ移行しないということである。
この仮定は、実世界の応用において非常に人気があり、アクセスしやすい適応戦略であるため、迅速な適応の下で、BTHを因果モデルで研究することで無効化する。
従来の研究とは対照的に、バイアスはプロンプトによって伝達され、人気のあるプロンプトベースの緩和手法は、バイアスの転送を一貫して防ぐことができない。
具体的には,性別(rho >= 0.94) と年齢(rho >= 0.98) と宗教(rho >= 0.69) との相関関係が,人口統計学やタスクにおいて強く保たれている。
さらに, サンプルサイズ, ステレオタイプ含量, 職業分布, 表現バランス (rho >= 0.90) など, 少数ショット構成パラメータが変化しても, バイアスは強く相関することがわかった。
我々は、いくつかのプロンプトベースのデバイアス戦略を評価し、異なるアプローチは異なる強みを持つが、モデル、タスク、人口統計学におけるバイアス伝達を一貫して減少させることは決してない。
これらの結果は、本質的なモデルにおけるバイアスの修正と、潜在的に推論能力の向上が、下流タスクへのバイアスの伝播を妨げていることを示している。
関連論文リスト
- From Global to Local: Social Bias Transfer in CLIP [22.508828073380112]
本研究では,先行文献におけるバイアス伝達現象を包括的実証分析により検討する。
事前学習バイアスがデータのグローバルビューとローカルビューの間でどのように変化するかを調べ、バイアス測定が計算されたデータのサブセットに大きく依存していることを確認する。
この不整合がなぜ生じるのかを考察し、現在のパラダイムの下では、異なる事前学習されたCLIPの表現空間が下流タスクに適応すると収束する傾向があることを示す。
論文 参考訳(メタデータ) (2025-08-25T07:44:03Z) - Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs [51.00909549291524]
大型言語モデル(LLM)は認知バイアスを示す。
これらのバイアスはモデルによって異なり、命令チューニングによって増幅することができる。
これらのバイアスの違いが事前学習、微調整、あるいはランダムノイズに起因するかどうかは不明だ。
論文 参考訳(メタデータ) (2025-07-09T18:01:14Z) - On the Origins of Sampling Bias: Implications on Fairness Measurement and Mitigation [0.0]
いくつかのバイアス源が存在し、機械学習によるバイアスは異なるグループによって等しく生まれると仮定される。
特にサンプリングバイアスは、サンプリング手順によるバイアスを記述するために文献で矛盾的に使用される。
サンプルサイズバイアス (SSB) とアンダーレ表現バイアス (URB) の明確に定義された変種を導入する。
論文 参考訳(メタデータ) (2025-03-23T06:23:07Z) - Evaluating Gender Bias Transfer between Pre-trained and Prompt-Adapted Language Models [4.274270062767065]
本研究では,迅速な適応の下でのバイアス伝達仮説(BTH)について検討する。
LLMが公正な行動や偏見を示すよう特別に促された場合でも, バイアス伝達は強く相関していることがわかった。
本研究は, プレトレーニングLDMにおける公平性の確保の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-12-04T18:32:42Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Improving Bias Mitigation through Bias Experts in Natural Language
Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。
提案手法は補助モデルのバイアス識別能力を向上させる。
論文 参考訳(メタデータ) (2023-12-06T16:15:00Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Fighting Fire with Fire: Contrastive Debiasing without Bias-free Data
via Generative Bias-transformation [31.944147533327058]
生成バイアス変換(CDvG)によるコントラスト劣化
本稿では, バイアスラベルやバイアスのないサンプルを伴わないCDvG (Generative Bias-Transformation) によるコントラスト的デバイアス(Contrastive Debiasing) 手法を提案する。
本手法は, バイアスのないサンプルが不足あるいは欠落している場合に, 従来の手法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2021-12-02T07:16:06Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。