論文の概要: Towards Transfer Unlearning: Empirical Evidence of Cross-Domain Bias Mitigation
- arxiv url: http://arxiv.org/abs/2407.16951v1
- Date: Wed, 24 Jul 2024 02:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:02:58.561126
- Title: Towards Transfer Unlearning: Empirical Evidence of Cross-Domain Bias Mitigation
- Title(参考訳): トランスファー・アンラーニングに向けて : クロスドメインバイアス緩和の実証的証拠
- Authors: Huimin Lu, Masaru Isonuma, Junichiro Mori, Ichiro Sakata,
- Abstract要約: 大規模言語モデル(LLM)における非学習に基づくデバイアス化のアプローチについて検討する。
テキストの有害部分を解き放つマスク言語モデリングアンラーニング手法を提案する。
実験の結果,言語モデリング能力を維持しながらバイアスを減少させる手法の有効性が示された。
- 参考スコア(独自算出の注目度): 18.150899267807965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often inherit biases from vast amounts of training corpora. Traditional debiasing methods, while effective to some extent, do not completely eliminate memorized biases and toxicity in LLMs. In this paper, we study an unlearning-based approach to debiasing in LLMs by performing gradient ascent on hate speech against minority groups, i.e., minimizing the likelihood of biased or toxic content. Specifically, we propose a mask language modeling unlearning technique, which unlearns the harmful part of the text. This method enables LLMs to selectively forget and disassociate from biased and harmful content. Experimental results demonstrate the effectiveness of our approach in diminishing bias while maintaining the language modeling abilities. Surprisingly, the results also unveil an unexpected potential for cross-domain transfer unlearning: debiasing in one bias form (e.g. gender) may contribute to mitigating others (e.g. race and religion).
- Abstract(参考訳): 大規模な言語モデル(LLM)は、大量のトレーニングコーパスからのバイアスを継承することが多い。
従来の脱バイアス法はある程度有効であるが、LLMの記憶バイアスや毒性を完全に排除するものではない。
本稿では, 少数民族に対するヘイトスピーチの段階的上昇, すなわち, 偏りや有害な内容の可能性を最小化することにより, LLMの非学習的偏りを抑える手法について検討する。
具体的には,テキストの有害部分を解き放つマスク言語モデリングアンラーニング手法を提案する。
LLMは、偏りのある有害な内容から選択的に忘れ、解離することができる。
実験の結果,言語モデリング能力を維持しながらバイアスを減少させる手法の有効性が示された。
驚くべきことに、この結果は、非学習のドメイン間移動の予期せぬ可能性も明らかにしている: 1つのバイアス形態(例えば性別)での偏見は、他者(例えば人種や宗教)の緩和に寄与するかもしれない。
関連論文リスト
- Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。
LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。
我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文 参考訳(メタデータ) (2024-10-17T13:06:02Z) - Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data [9.90951705988724]
大規模言語モデル(LLM)は、社会的バイアスを継承し増幅する傾向がある。
LLMバイアスは、不公平な慣行をもたらし、社会的不平等を悪化させる。
論文 参考訳(メタデータ) (2024-08-20T23:54:26Z) - REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。
LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。
複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文 参考訳(メタデータ) (2024-08-18T14:08:31Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。
我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Likelihood-based Mitigation of Evaluation Bias in Large Language Models [37.07596663793111]
大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。
LLMが評価に使用される場合、確率バイアスが存在する可能性がある。
論文 参考訳(メタデータ) (2024-02-25T04:52:02Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Diagnosing and Debiasing Corpus-Based Political Bias and Insults in GPT2 [0.0]
大規模な言語モデル (LLMs) をインターネットから流出した未フィルタリングコーパスでトレーニングすることは、一般的で有利なプラクティスである。
近年の研究では、生成事前学習型トランスフォーマー(GPT)言語モデルが、自身のバイアスを認識し、生成されたコンテンツの毒性を検出することが示されている。
本研究は、侮辱と政治的偏見の2つの追加的なバイアスを緩和する診断・偏見的アプローチの有効性について検討した。
論文 参考訳(メタデータ) (2023-11-17T01:20:08Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。