論文の概要: Bridging the Fairness Gap: Enhancing Pre-trained Models with LLM-Generated Sentences
- arxiv url: http://arxiv.org/abs/2501.06795v1
- Date: Sun, 12 Jan 2025 12:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:59.545292
- Title: Bridging the Fairness Gap: Enhancing Pre-trained Models with LLM-Generated Sentences
- Title(参考訳): フェアネスギャップのブリッジ: LLM生成文による事前学習モデルの強化
- Authors: Liu Yu, Ludie Guo, Ping Kuang, Fan Zhou,
- Abstract要約: 本稿では,コヒーレント,属性バランス,意味的リッチな文を吸収することにより,事前学習言語モデル(PLM)における公平性(フェアジェンダー)を高めることを提案する。
これらの文は、アライメントの問題と負の移動のリスクにより、デバイアスに直接使われることはできない。
因果解析を適用し、因果効果を推定し、不整列文をフィルタリングし、PLMに組み込むための整列文を特定することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 8.979854959662664
- License:
- Abstract: Pre-trained language models (PLMs) are trained on data that inherently contains gender biases, leading to undesirable impacts. Traditional debiasing methods often rely on external corpora, which may lack quality, diversity, or demographic balance, affecting the effectiveness of debiasing. With the rise of large language models and their extensive knowledge, we propose enhancing fairness (Fair-Gender) in PLMs by absorbing coherent, attribute-balanced, and semantically rich sentences. However, these sentences cannot be directly used for debiasing due to alignment issues and the risk of negative transfer. We address this by applying causal analysis to estimate causal effects, filtering out unaligned sentences, and identifying aligned ones for incorporation into PLMs, thereby ensuring positive transfer. Experiments show that our approach significantly reduces gender biases in PLMs while preserving their language expressiveness.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、本質的に性別バイアスを含むデータに基づいて訓練されており、望ましくない影響をもたらす。
伝統的なデバイアス法は、しばしば外部のコーパスに依存しており、品質、多様性、人口動態のバランスが欠如しており、デバイアスの有効性に影響を及ぼす。
大規模言語モデルの台頭とその広範な知識により,コヒーレント,属性バランス,意味的リッチな文を吸収することにより,PLMにおける公平性(フェアジェンダー)を高めることを提案する。
しかし、これらの文は、アライメントの問題や負の移動のリスクにより、直接的に嫌悪するためには使用できない。
因果関係を推定するために因果関係解析を適用し、不整列文をフィルタリングし、PLMに組み込むための整列文を特定することにより、正の伝達を保証する。
実験の結果,本手法は言語表現性を保ちながら PLM の性別バイアスを著しく低減することが示された。
関連論文リスト
- Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia [0.3376269351435396]
事前学習言語モデル(PLM)におけるバイアス行動に対するトークンレベルの寄与を測定するための新しい指標を提案する。
東南アジアのPLMにおいて性差別と同性愛バイアスの存在が確認された。
解釈可能性と意味分析は、PLMバイアスが犯罪、親密な関係、助けに関する言葉によって強く引き起こされることを示している。
論文 参考訳(メタデータ) (2024-10-20T18:31:05Z) - Towards Transfer Unlearning: Empirical Evidence of Cross-Domain Bias Mitigation [18.150899267807965]
大規模言語モデル(LLM)における非学習に基づくデバイアス化のアプローチについて検討する。
テキストの有害部分を解き放つマスク言語モデリングアンラーニング手法を提案する。
実験の結果,言語モデリング能力を維持しながらバイアスを減少させる手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-24T02:37:42Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - In-Contextual Gender Bias Suppression for Large Language Models [47.246504807946884]
大きな言語モデル (LLM) は、性バイアスの心配レベルをエンコードしていると報告されている。
手動で設計したテンプレートから構築したプリアンブルを提供することにより,LLMのバイアス発生を防止するバイアス抑制を提案する。
その結果,HellaSwag と COPA による下流タスク性能にバイアス抑制が悪影響があることが判明した。
論文 参考訳(メタデータ) (2023-09-13T18:39:08Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。