論文の概要: Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment
- arxiv url: http://arxiv.org/abs/2408.00137v1
- Date: Wed, 31 Jul 2024 19:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 22:25:51.409357
- Title: Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment
- Title(参考訳): 負のアテンションスコアアライメントによる大言語モデルの負のバイアスの補正
- Authors: Sangwon Yu, Jongyoon Song, Bongkyu Hwang, Hoyoung Kang, Sooah Cho, Junhwa Choi, Seongho Joe, Taehee Lee, Youngjune L. Gwon, Sungroh Yoon,
- Abstract要約: イエスノー質問や回答検証のようなバイナリ決定タスクは、重要な現実のシナリオを反映します。
我々は,言語モデルが複雑な推論タスクのバイナリ決定に負のバイアスをもたらすことを観察する。
負のバイアスを体系的に定量的に定式化するための負の注意スコア(NAS)を提案する。
- 参考スコア(独自算出の注目度): 26.598938398594402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A binary decision task, like yes-no questions or answer verification, reflects a significant real-world scenario such as where users look for confirmation about the correctness of their decisions on specific issues. In this work, we observe that language models exhibit a negative bias in the binary decisions of complex reasoning tasks. Based on our observations and the rationale about attention-based model dynamics, we propose a negative attention score (NAS) to systematically and quantitatively formulate negative bias. Based on NAS, we identify attention heads that attend to negative tokens provided in the instructions as answer candidate of binary decisions, regardless of the question in the prompt, and validate their association with the negative bias. Additionally, we propose the negative attention score alignment (NASA) method, which is a parameter-efficient fine-tuning technique to address the extracted negatively biased attention heads. Experimental results from various domains of reasoning tasks and large model search space demonstrate that NASA significantly reduces the gap between precision and recall caused by negative bias while preserving their generalization abilities. Our codes are available at \url{https://github.com/ysw1021/NASA}.
- Abstract(参考訳): 二分決定タスクは、イエスノー質問や回答検証のように、ユーザが特定の問題に対する決定の正当性を確認するなど、現実的な重要なシナリオを反映している。
本研究では,複雑な推論タスクのバイナリ決定において,言語モデルに負のバイアスが生じることを観察する。
本研究は,注意に基づくモデル力学の理論的根拠と観測結果に基づいて,負のバイアスを体系的かつ定量的に定式化するための負の注意スコア(NAS)を提案する。
NASに基づいて、指示書に記載された負のトークンに対応する注意ヘッドを、プロンプトの質問によらず二項決定の解答候補として同定し、負のバイアスとの関連性を検証する。
また,パラメータ効率のよい微調整手法であるネガティブアテンションスコアアライメント(NASA)手法を提案する。
様々な推論タスクと大規模なモデル探索空間による実験結果から、NASAは一般化能力を保ちながら、負のバイアスによる精度とリコールのギャップを著しく減らすことを示した。
私たちのコードは \url{https://github.com/ysw1021/NASA} で利用可能です。
関連論文リスト
- Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Applying Intrinsic Debiasing on Downstream Tasks: Challenges and Considerations for Machine Translation [19.06428714669272]
内在的デバイアスの手法がニューラルマシン翻訳モデルにどのように影響するかを系統的に検証する。
私たちは、デバイアスングテクニックとエンドゴール使用の3つの課題とミスマッチを強調します。
論文 参考訳(メタデータ) (2024-06-02T15:57:29Z) - Investigating Bias Representations in Llama 2 Chat via Activation
Steering [0.0]
我々は、アクティベーションステアリングを使用して、性別、人種、宗教に関連するバイアスを調査し、緩和します。
以上の結果から,Llama 2 7B Chatの性差は,Reinforcement Learning from Human Feedback以降も持続することが明らかとなった。
この作業は、大規模言語モデルの効果的な再チーム戦略に関する貴重な洞察も提供する。
論文 参考訳(メタデータ) (2024-02-01T07:48:50Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Controlling Bias Exposure for Fair Interpretable Predictions [11.364105288235308]
盲目的に排除するのではなく、センシティブな情報を「公平に」使うのが望ましいと我々は主張する。
我々のモデルは、偏りのある論理を証拠として生み出すとともに、偏りとタスクパフォーマンスの間の望ましいトレードオフを達成する。
論文 参考訳(メタデータ) (2022-10-14T01:49:01Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Fairness Through Robustness: Investigating Robustness Disparity in Deep
Learning [61.93730166203915]
我々は、モデルが敵の攻撃に弱い場合、従来の公平性の概念では不十分であると主張する。
頑健性バイアスを測定することはDNNにとって難しい課題であり,この2つの方法を提案する。
論文 参考訳(メタデータ) (2020-06-17T22:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。