論文の概要: Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction
- arxiv url: http://arxiv.org/abs/2411.06424v1
- Date: Sun, 10 Nov 2024 11:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:58.800936
- Title: Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction
- Title(参考訳): DPOをエミュレートするにはアブレーションが十分ではない: ニューロンのダイナミクスによる毒性の低下
- Authors: Yushi Yang, Filip Sondej, Harry Mayne, Adam Mahdi,
- Abstract要約: 現在の説明では、直接選好(DPO)は、最も有毒なニューロンを減らし、残留ストリームの有毒な領域を避けるためにオフセットを学ぶことによって機能すると主張している。
ニューロンの活性化変化を毒性プローブに投影することにより、毒性の減少の31.8%は毒性の低下によるものであることがわかった。
DPOは、複数のニューロン群にまたがる効果を蓄積することで毒性を減少させ、毒性の方向の書き込みを減少させ、残留ストリームにおける抗毒性を促進する。
このことは、DPOが毒性の低下を達成するために対立するニューロン効果のバランスをとる過程であることを示している。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License:
- Abstract: Safety fine-tuning algorithms are commonly used to fine-tune language models to reduce harmful outputs, but the exact internal mechanisms of how those models achieve this remain unclear. In studying direct preference optimisation (DPO) for toxicity reduction, current explanations claim that DPO works by dampening the most toxic MLP neurons to learn an offset to avert toxic regions in the residual stream. However, by ablating the most toxic neurons and applying activation patching, we find this explanation incomplete. By projecting neuron activation changes onto a toxicity probe, we find that only 31.8\% of toxicity reduction comes from dampened toxic neurons. Instead, DPO reduces toxicity by accumulating effects across multiple neuron groups, both reducing writing in the toxic direction and promoting anti-toxicity in the residual stream. Moreover, DPO gives noisy adjustments to neuron activations, with many neurons actually increasing toxicity. This indicates that DPO is a balancing process between opposing neuron effects to achieve toxicity reduction.
- Abstract(参考訳): 安全性の微調整アルゴリズムは、有害な出力を減らすために言語モデルを微調整するために一般的に使用されるが、これらのモデルがこれをどのように達成するかの正確な内部メカニズムは未だ不明である。
毒性減少のための直接選好最適化(DPO)の研究において、現在の説明では、DPOは最も有毒なMLPニューロンを減らし、残留ストリームの有害な領域を避けるためにオフセットを学ぶことによって機能すると主張している。
しかし、最も毒性の高いニューロンを非難し、アクティベーションパッチを適用することで、この説明は不完全であることが判明した。
ニューロンの活性化変化を毒性プローブに投影することにより、毒性の減少のわずか31.8\%は、毒性の減少によるものであることがわかった。
代わりに、DPOは、複数のニューロン群にまたがる効果を蓄積することで毒性を減少させ、毒性の方向の書き込みを減少させ、残留ストリームにおける抗毒性を促進する。
さらに、DPOはニューロンの活性化にノイズを与えるが、多くのニューロンは実際に毒性を増す。
このことは、DPOが毒性の低下を達成するために対立するニューロン効果のバランスをとる過程であることを示している。
関連論文リスト
- Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models [23.528355254330133]
毒性を規定するニューロンは、有害な文章を識別する能力によって決定できることを示す。
我々は,AUROC適応(AurA)を提案する。これは,事前訓練された任意の大規模言語モデルに適用して毒性を軽減できる介入である。
論文 参考訳(メタデータ) (2024-07-02T12:48:29Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO
and Toxicity [33.235015978211315]
本稿では、一般的なアルゴリズム、直接選好最適化(DPO)、および毒性を減少させるメカニズムについて検討する。
具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。
得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。
論文 参考訳(メタデータ) (2024-01-03T20:26:15Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - An Adiabatic Capacitive Artificial Neuron with RRAM-based Threshold
Detection for Energy-Efficient Neuromorphic Computing [62.997667081978825]
神経細胞の体細胞膜電位を誘導するために, 断熱性シナプスコンデンサを特徴とする人工ニューロンを提案する。
最初の4-bit adiabaticacacitive neuron proof-of-conceptの例では、90%のシナプスエネルギーが節約された。
論文 参考訳(メタデータ) (2022-02-02T17:12:22Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。