Fugu-MT 論文翻訳(概要): Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes

論文の概要: Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes

arxiv url: http://arxiv.org/abs/2402.01981v1
Date: Sat, 3 Feb 2024 01:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 23:02:19.501407
Title: Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes
Title（参考訳）: 自己劣化型大規模言語モデル:ゼロショット認識とステレオタイプ削減
Authors: Isabel O. Gallegos, Ryan A. Rossi, Joe Barrow, Md Mehrab Tanjim, Tong Yu, Hanieh Deilamsalehy, Ruiyi Zhang, Sungchul Kim, Franck Dernoncourt
Abstract要約: ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
参考スコア（独自算出の注目度）: 73.12947922129261
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown remarkable advances in language generation and understanding but are also prone to exhibiting harmful social biases. While recognition of these behaviors has generated an abundance of bias mitigation techniques, most require modifications to the training data, model parameters, or decoding strategy, which may be infeasible without access to a trainable model. In this work, we leverage the zero-shot capabilities of LLMs to reduce stereotyping in a technique we introduce as zero-shot self-debiasing. With two approaches, self-debiasing via explanation and self-debiasing via reprompting, we show that self-debiasing can significantly reduce the degree of stereotyping across nine different social groups while relying only on the LLM itself and a simple prompt, with explanations correctly identifying invalid assumptions and reprompting delivering the greatest reductions in bias. We hope this work opens inquiry into other zero-shot techniques for bias mitigation.
Abstract（参考訳）: 大規模言語モデル(LLM)は、言語生成と理解において顕著な進歩を示したが、有害な社会的偏見を示す傾向がある。これらの行動の認識は、バイアス軽減手法を多数生み出しているが、ほとんどの場合、トレーニングデータ、モデルパラメータ、あるいはデコード戦略の変更が必要であり、トレーニング可能なモデルにアクセスできない可能性がある。本研究では, LLMのゼロショット機能を活用し, ゼロショット自己劣化技術として導入したステレオタイピングを低減する。リプロンプトによる自己退化と自己退化という2つのアプローチにより、自己退化は、LLM自体と単純なプロンプトにのみ依存しながら、9つの異なる社会グループ間でのステレオタイピングの度合いを著しく低減し、不正な仮定を正しく識別し、バイアスの最大化を実現する。この研究がバイアス軽減のための他のゼロショット技術の調査をオープンにすることを願っている。

関連論文リスト

Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings [13.686732204665738]
既存のBBQデータセットを,補間質問型と短解質問型を組み込むことで拡張する。我々の発見によると、LSMは年齢や社会経済的地位など、特定の保護された属性に対してより偏りのある反応を生み出す。偏見をゼロショット、少数ショット、チェーン・オブ・シントを組み合わせることで、偏見のレベルを約0。
論文参考訳（メタデータ） (2024-12-09T01:29:47Z)
Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文参考訳（メタデータ） (2024-12-02T16:56:08Z)
Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文参考訳（メタデータ） (2024-08-20T07:40:12Z)
REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。 LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文参考訳（メタデータ） (2024-08-18T14:08:31Z)
Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
Towards Transfer Unlearning: Empirical Evidence of Cross-Domain Bias Mitigation [18.150899267807965]
大規模言語モデル(LLM)における非学習に基づくデバイアス化のアプローチについて検討する。テキストの有害部分を解き放つマスク言語モデリングアンラーニング手法を提案する。実験の結果,言語モデリング能力を維持しながらバイアスを減少させる手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-24T02:37:42Z)
The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。 StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文参考訳（メタデータ） (2024-06-14T15:41:06Z)
Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。 CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文参考訳（メタデータ） (2023-11-16T07:16:55Z)
Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文参考訳（メタデータ） (2023-01-31T20:09:33Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。