論文の概要: Investigating Bias Representations in Llama 2 Chat via Activation
Steering
- arxiv url: http://arxiv.org/abs/2402.00402v1
- Date: Thu, 1 Feb 2024 07:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 16:00:06.386587
- Title: Investigating Bias Representations in Llama 2 Chat via Activation
Steering
- Title(参考訳): 活性化ステアリングによるLlama 2 Chatのバイアス表現の検討
- Authors: Dawn Lu, Nina Rimsky
- Abstract要約: 我々は、アクティベーションステアリングを使用して、性別、人種、宗教に関連するバイアスを調査し、緩和します。
以上の結果から,Llama 2 7B Chatの性差は,Reinforcement Learning from Human Feedback以降も持続することが明らかとなった。
この作業は、大規模言語モデルの効果的な再チーム戦略に関する貴重な洞察も提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenge of societal bias in Large Language Models (LLMs),
focusing on the Llama 2 7B Chat model. As LLMs are increasingly integrated into
decision-making processes with substantial societal impact, it becomes
imperative to ensure these models do not reinforce existing biases. Our
approach employs activation steering to probe for and mitigate biases related
to gender, race, and religion. This method manipulates model activations to
direct responses towards or away from biased outputs, utilizing steering
vectors derived from the StereoSet dataset and custom GPT4 generated gender
bias prompts. Our findings reveal inherent gender bias in Llama 2 7B Chat,
persisting even after Reinforcement Learning from Human Feedback (RLHF). We
also observe a predictable negative correlation between bias and the model's
tendency to refuse responses. Significantly, our study uncovers that RLHF tends
to increase the similarity in the model's representation of different forms of
societal biases, which raises questions about the model's nuanced understanding
of different forms of bias. This work also provides valuable insights into
effective red-teaming strategies for LLMs using activation steering,
particularly emphasizing the importance of integrating a refusal vector.
- Abstract(参考訳): 我々はLlama 2 7B Chatモデルに着目し,Large Language Models (LLMs)における社会的バイアスの課題に対処する。
LLMは、社会的影響が大きい意思決定プロセスに統合されつつあるため、これらのモデルが既存のバイアスを補強しないことを保証することが不可欠になっている。
当社のアプローチでは、アクティベーションステアリングを使用して、性別、人種、宗教に関するバイアスを調査し、緩和する。
この方法は、StereoSetデータセットから派生したステアリングベクターと、独自のGPT4生成したジェンダーバイアスプロンプトを利用して、モデルアクティベーションを操作し、バイアス付き出力の方向または方向への応答を誘導する。
本研究は,人間フィードバック(rlhf)からの強化学習後も持続するllama 2 7bチャットにおける性バイアスを明らかにした。
また、バイアスとモデルが応答を拒否する傾向との予測可能な負の相関を観察する。
以上より,rlhfは社会バイアスの異なる形態のモデル表現の類似性を高める傾向にあり,モデルが異なる形態のバイアスに対するニュアンス的理解に疑問を呈することが明らかとなった。
この研究は、アクティベーションステアリングを用いたLCMの効果的なリピート戦略に関する貴重な洞察も提供し、特にリフレクションベクトルの統合の重要性を強調した。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) [82.57490175399693]
画像・テキスト・ビジョン言語アシスタント(VLA)22種における性別バイアスの検討
以上の結果から,VLAは実世界の作業不均衡など,データ中の人間のバイアスを再現する可能性が示唆された。
これらのモデルにおける性別バイアスを排除するため、微調整に基づくデバイアス法は、下流タスクにおけるデバイアスとパフォーマンスの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-10-25T05:59:44Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models [10.73340009530019]
本研究は,Large Language Models (LLMs) における2つのバイアス,代表バイアスと親和性バイアスに対処する。
我々は,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を導入する。
我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。
親和性バイアスによる各モデルにおける特徴的評価パターンの解明
論文 参考訳(メタデータ) (2024-05-23T13:35:34Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Evaluating Bias and Fairness in Gender-Neutral Pretrained
Vision-and-Language Models [23.65626682262062]
我々は,3種類の視覚・言語モデルを用いた事前学習および微調整後のバイアス増幅の定量化を行う。
全体として、事前学習および微調整後のバイアス増幅は独立である。
論文 参考訳(メタデータ) (2023-10-26T16:19:19Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。