論文の概要: CRISPR: Eliminating Bias Neurons from an Instruction-following Language
Model
- arxiv url: http://arxiv.org/abs/2311.09627v1
- Date: Thu, 16 Nov 2023 07:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:58:18.051679
- Title: CRISPR: Eliminating Bias Neurons from an Instruction-following Language
Model
- Title(参考訳): CRISPR: 指示追従言語モデルからバイアスニューロンを除去する
- Authors: Nakyeong Yang, Taegwan Kang and Kyomin Jung
- Abstract要約: 大規模言語モデル(LLM) タスクの実行は、ユーザ命令とトレーニング命令の分散の違いに起因する問題に直面することが多い。
本稿では,LLMにおける命令-ラベルバイアスを軽減するために,新しいバイアス緩和手法であるCRISPRを提案する。
- 参考スコア(独自算出の注目度): 20.85087486607888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) executing tasks through instruction-based
prompts often face challenges stemming from distribution differences between
user instructions and training instructions. This leads to distractions and
biases, especially when dealing with inconsistent dynamic labels. In this
paper, we introduces a novel bias mitigation method, CRISPR, designed to
alleviate instruction-label biases in LLMs. CRISPR utilizes attribution methods
to identify bias neurons influencing biased outputs and employs pruning to
eliminate the bias neurons. Experimental results demonstrate the method's
effectiveness in mitigating biases in instruction-based prompting, enhancing
language model performance on social bias benchmarks without compromising
pre-existing knowledge. CRISPR proves highly practical, model-agnostic,
offering flexibility in adapting to evolving social biases.
- Abstract(参考訳): 命令ベースのプロンプトを通じてタスクを実行する大規模言語モデル(LLM)は、ユーザ命令とトレーニング命令の分散の違いに起因する問題に直面することが多い。
これは、特に一貫性のない動的ラベルを扱う場合、注意散らかしやバイアスを引き起こす。
本稿では,LLMにおける命令-ラベルバイアスを軽減するために,新しいバイアス緩和手法であるCRISPRを提案する。
CRISPRは帰属法を用いてバイアス出力に影響を与えるバイアスニューロンを同定し、プルーニングを用いてバイアスニューロンを除去する。
実験結果から,既存の知識を損なうことなく,指導ベースプロンプトのバイアス軽減,社会的バイアスベンチマークにおける言語モデルの性能向上に有効であることが示された。
CRISPRは、非常に実用的で、モデルに依存しない、進化する社会的バイアスに適応する柔軟性を提供する。
関連論文リスト
- Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Compensatory Biases Under Cognitive Load: Reducing Selection Bias in Large Language Models [0.0]
大規模言語モデル(LLM)は意味に基づくタスクの解釈と実行に役立っている。
本研究は、これらのバイアスを批判的に検討し、代表リスト選択タスクへの影響を定量化する。
論文 参考訳(メタデータ) (2024-01-29T15:43:23Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Improving Bias Mitigation through Bias Experts in Natural Language
Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。
提案手法は補助モデルのバイアス識別能力を向上させる。
論文 参考訳(メタデータ) (2023-12-06T16:15:00Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - Diverse Adversaries for Mitigating Bias in Training [58.201275105195485]
本研究では,多種多様判別器を用いた対人学習の新たなアプローチを提案する。
実験の結果,本手法は従来の逆転除去法よりも大幅に改善された。
論文 参考訳(メタデータ) (2021-01-25T10:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。