論文の概要: Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes
- arxiv url: http://arxiv.org/abs/2402.01981v1
- Date: Sat, 3 Feb 2024 01:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:02:19.501407
- Title: Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes
- Title(参考訳): 自己劣化型大規模言語モデル:ゼロショット認識とステレオタイプ削減
- Authors: Isabel O. Gallegos, Ryan A. Rossi, Joe Barrow, Md Mehrab Tanjim, Tong
Yu, Hanieh Deilamsalehy, Ruiyi Zhang, Sungchul Kim, Franck Dernoncourt
- Abstract要約: ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
- 参考スコア(独自算出の注目度): 73.12947922129261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable advances in language
generation and understanding but are also prone to exhibiting harmful social
biases. While recognition of these behaviors has generated an abundance of bias
mitigation techniques, most require modifications to the training data, model
parameters, or decoding strategy, which may be infeasible without access to a
trainable model. In this work, we leverage the zero-shot capabilities of LLMs
to reduce stereotyping in a technique we introduce as zero-shot self-debiasing.
With two approaches, self-debiasing via explanation and self-debiasing via
reprompting, we show that self-debiasing can significantly reduce the degree of
stereotyping across nine different social groups while relying only on the LLM
itself and a simple prompt, with explanations correctly identifying invalid
assumptions and reprompting delivering the greatest reductions in bias. We hope
this work opens inquiry into other zero-shot techniques for bias mitigation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語生成と理解において顕著な進歩を示したが、有害な社会的偏見を示す傾向がある。
これらの行動の認識は、バイアス軽減手法を多数生み出しているが、ほとんどの場合、トレーニングデータ、モデルパラメータ、あるいはデコード戦略の変更が必要であり、トレーニング可能なモデルにアクセスできない可能性がある。
本研究では, LLMのゼロショット機能を活用し, ゼロショット自己劣化技術として導入したステレオタイピングを低減する。
リプロンプトによる自己退化と自己退化という2つのアプローチにより、自己退化は、LLM自体と単純なプロンプトにのみ依存しながら、9つの異なる社会グループ間でのステレオタイピングの度合いを著しく低減し、不正な仮定を正しく識別し、バイアスの最大化を実現する。
この研究がバイアス軽減のための他のゼロショット技術の調査をオープンにすることを願っている。
関連論文リスト
- Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。
我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-20T07:40:12Z) - REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。
LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。
複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文 参考訳(メタデータ) (2024-08-18T14:08:31Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Towards Transfer Unlearning: Empirical Evidence of Cross-Domain Bias Mitigation [18.150899267807965]
大規模言語モデル(LLM)における非学習に基づくデバイアス化のアプローチについて検討する。
テキストの有害部分を解き放つマスク言語モデリングアンラーニング手法を提案する。
実験の結果,言語モデリング能力を維持しながらバイアスを減少させる手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-24T02:37:42Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。