Fugu-MT 論文翻訳(概要): CRISPR: Eliminating Bias Neurons from an Instruction-following Language Model

論文の概要: CRISPR: Eliminating Bias Neurons from an Instruction-following Language Model

arxiv url: http://arxiv.org/abs/2311.09627v1
Date: Thu, 16 Nov 2023 07:16:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:58:18.051679
Title: CRISPR: Eliminating Bias Neurons from an Instruction-following Language Model
Title（参考訳）: CRISPR: 指示追従言語モデルからバイアスニューロンを除去する
Authors: Nakyeong Yang, Taegwan Kang and Kyomin Jung
Abstract要約: 大規模言語モデル(LLM) タスクの実行は、ユーザ命令とトレーニング命令の分散の違いに起因する問題に直面することが多い。本稿では,LLMにおける命令-ラベルバイアスを軽減するために,新しいバイアス緩和手法であるCRISPRを提案する。
参考スコア（独自算出の注目度）: 20.85087486607888
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) executing tasks through instruction-based prompts often face challenges stemming from distribution differences between user instructions and training instructions. This leads to distractions and biases, especially when dealing with inconsistent dynamic labels. In this paper, we introduces a novel bias mitigation method, CRISPR, designed to alleviate instruction-label biases in LLMs. CRISPR utilizes attribution methods to identify bias neurons influencing biased outputs and employs pruning to eliminate the bias neurons. Experimental results demonstrate the method's effectiveness in mitigating biases in instruction-based prompting, enhancing language model performance on social bias benchmarks without compromising pre-existing knowledge. CRISPR proves highly practical, model-agnostic, offering flexibility in adapting to evolving social biases.
Abstract（参考訳）: 命令ベースのプロンプトを通じてタスクを実行する大規模言語モデル(LLM)は、ユーザ命令とトレーニング命令の分散の違いに起因する問題に直面することが多い。これは、特に一貫性のない動的ラベルを扱う場合、注意散らかしやバイアスを引き起こす。本稿では,LLMにおける命令-ラベルバイアスを軽減するために,新しいバイアス緩和手法であるCRISPRを提案する。 CRISPRは帰属法を用いてバイアス出力に影響を与えるバイアスニューロンを同定し、プルーニングを用いてバイアスニューロンを除去する。実験結果から,既存の知識を損なうことなく,指導ベースプロンプトのバイアス軽減,社会的バイアスベンチマークにおける言語モデルの性能向上に有効であることが示された。 CRISPRは、非常に実用的で、モデルに依存しない、進化する社会的バイアスに適応する柔軟性を提供する。

関連論文リスト

NeuronTune: Towards Self-Guided Spurious Bias Mitigation [26.544938760265136]
ディープニューラルネットワークは、しばしば急激な偏見、非本質的な特徴と予測のためのクラスの間の相関に依存する。既存の緩和アプローチは典型的には、緩やかな相関の外部アノテーションに依存している。本稿では,モデルの内部決定プロセスに直接介入するポストホック法であるNeuronTuneを提案する。
論文参考訳（メタデータ） (2025-05-29T22:33:00Z)
The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。 StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文参考訳（メタデータ） (2024-06-14T15:41:06Z)
Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文参考訳（メタデータ） (2024-03-27T17:49:31Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文参考訳（メタデータ） (2023-10-19T08:10:57Z)
Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。 DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2022-12-11T06:16:14Z)
Learning Debiased Models with Dynamic Gradient Alignment and Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文参考訳（メタデータ） (2021-11-25T14:50:10Z)
Debiasing Methods in Natural Language Understanding Make Bias More Accessible [28.877572447481683]
自然言語理解(NLU)における近年のデバイアス化手法は,モデルを押して非バイアス予測を行うことにより,そのようなデータセットの性能を向上させる。本稿では,言語モデルにおけるバイアスのポストホック解釈を可能にする,一般的な探索型フレームワークを提案する。反故意に、言語モデルが偏見のない体制にプッシュされるほど、バイアスが実際に内部表現にエンコードされることが示される。
論文参考訳（メタデータ） (2021-09-09T08:28:22Z)
A Generative Approach for Mitigating Structural Biases in Natural Language Inference [24.44419010439227]
本研究では、NLIタスクを生成タスクとして再構成し、モデルが入力とラベルのバイアス付きサブセットに条件付けされるようにする。このアプローチは大量のバイアスに対して非常に堅牢であることを示す。生成モデルは訓練が困難であり、識別ベースラインよりも一般的にはパフォーマンスが悪くなっている。
論文参考訳（メタデータ） (2021-08-31T17:59:45Z)
Learning from others' mistakes: Avoiding dataset biases without modeling them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。本稿では,これらの問題点を無視する学習モデルについて述べる。
論文参考訳（メタデータ） (2020-12-02T16:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。