論文の概要: How Does DPO Reduce Toxicity? A Mechanistic Neuron-Level Analysis
- arxiv url: http://arxiv.org/abs/2411.06424v3
- Date: Sun, 08 Jun 2025 13:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:09.326648
- Title: How Does DPO Reduce Toxicity? A Mechanistic Neuron-Level Analysis
- Title(参考訳): DPOはいかにして毒性を低下させるか? : 機械的ニューロンレベル解析
- Authors: Yushi Yang, Filip Sondej, Harry Mayne, Andrew Lee, Adam Mahdi,
- Abstract要約: 安全微調整アルゴリズムは言語モデルにおける有害な出力を減らすが、そのメカニズムは未解明のままである。
毒性ニューロンは、モデル全体でのDPOの効果の2.5%から24%に過ぎなかった。
そこで我々はDPOを模倣した活性化編集法を開発した。
- 参考スコア(独自算出の注目度): 1.6274584204099996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety fine-tuning algorithms reduce harmful outputs in language models, yet their mechanisms remain under-explored. Direct Preference Optimization (DPO) is a popular choice of algorithm, but prior explanations, attributing its effects solely to dampened toxic neurons in the MLP layers, are incomplete. In this study, we analyse four language models (Llama-3.1-8B, Gemma-2-2B, Mistral-7B, GPT-2-Medium) and show that toxic neurons only account for 2.5% to 24% of DPO's effects across models. Instead, DPO balances distributed activation shifts across all MLP neurons to create a net toxicity reduction. We attribute this reduction to four neuron groups, two aligned with reducing toxicity and two promoting anti-toxicity, whose combined effects replicate DPO across models. To further validate this understanding, we develop an activation editing method mimicking DPO through distributed shifts along a toxicity representation. This method outperforms DPO in reducing toxicity while preserving perplexity, without requiring any weight updates. Our work provides a mechanistic understanding of DPO and introduces an efficient, tuning-free alternative for safety fine-tuning.
- Abstract(参考訳): 安全微調整アルゴリズムは言語モデルにおける有害な出力を減らすが、そのメカニズムは未解明のままである。
直接選好最適化(DPO)はアルゴリズムの一般的な選択であるが、MLP層における毒性ニューロンの減衰にのみ寄与する先行説明は不完全である。
本研究では,4つの言語モデル (Llama-3.1-8B, Gemma-2-2B, Mistral-7B, GPT-2-Medium) を解析し, 毒性ニューロンはモデル全体でDPOの効果の2.5%から24%しか寄与しないことを示した。
代わりに、DPOは全てのMLPニューロンに分散活性化シフトをバランスさせ、純毒性の低下を引き起こす。
この低下は4つのニューロン群に起因し、2つは毒性を減少させ、2つは抗毒性を促進させ、その複合効果はモデル全体でDPOを再現する。
そこで本研究では,DPOを模倣した活性化編集手法を開発した。
この方法は、重み更新を必要とせず、難易度を保ちながら毒性を低下させるDPOよりも優れている。
我々の研究はDPOの機械的理解を提供し、安全微調整のための効率的でチューニング不要な代替手段を導入する。
関連論文リスト
- Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models [23.528355254330133]
毒性を規定するニューロンは、有害な文章を識別する能力によって決定できることを示す。
我々は,AUROC適応(AurA)を提案する。これは,事前訓練された任意の大規模言語モデルに適用して毒性を軽減できる介入である。
論文 参考訳(メタデータ) (2024-07-02T12:48:29Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文 参考訳(メタデータ) (2024-04-09T22:56:05Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO
and Toxicity [33.235015978211315]
本稿では、一般的なアルゴリズム、直接選好最適化(DPO)、および毒性を減少させるメカニズムについて検討する。
具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。
得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。
論文 参考訳(メタデータ) (2024-01-03T20:26:15Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - An Adiabatic Capacitive Artificial Neuron with RRAM-based Threshold
Detection for Energy-Efficient Neuromorphic Computing [62.997667081978825]
神経細胞の体細胞膜電位を誘導するために, 断熱性シナプスコンデンサを特徴とする人工ニューロンを提案する。
最初の4-bit adiabaticacacitive neuron proof-of-conceptの例では、90%のシナプスエネルギーが節約された。
論文 参考訳(メタデータ) (2022-02-02T17:12:22Z) - Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。
我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文 参考訳(メタデータ) (2021-09-15T17:27:06Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。