Fugu-MT 論文翻訳(概要): Beyond Toxic Neurons: A Mechanistic Analysis of DPO for Toxicity Reduction

論文の概要: Beyond Toxic Neurons: A Mechanistic Analysis of DPO for Toxicity Reduction

arxiv url: http://arxiv.org/abs/2411.06424v2
Date: Fri, 13 Dec 2024 22:41:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.231496
Title: Beyond Toxic Neurons: A Mechanistic Analysis of DPO for Toxicity Reduction
Title（参考訳）: 毒性ニューロンを越えてのDPOによる毒性低下機構の解析
Authors: Yushi Yang, Filip Sondej, Harry Mayne, Adam Mahdi,
Abstract要約: 安全微調整アルゴリズムは、言語モデルにおける有害な出力を減らすために広く用いられている。現在の説明では、DPOは毒性ニューロンの活性化を抑えることでこれを達成している。本研究は,安全性向上が言語モデルにおける有害なアウトプットをいかに減少させるか,新しい力学的知見を提供する。
参考スコア（独自算出の注目度）: 0.562479170374811
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safety fine-tuning algorithms are widely used to reduce harmful outputs in language models, but how they achieve this remain unclear. Studying the Direct Preference Optimization (DPO) algorithm for toxicity reduction, current explanations claim that DPO achieves this by dampening the activations of toxic MLP neurons. However, through activation patching, we show that this explanation is incomplete. Projections onto a toxicity probe's direction show that only 4.9% of toxicity reduction comes from dampened toxic neurons. Instead, DPO reduces toxicity through distributed activation shifts across a majority of neurons, progressively shifting MLP layer outputs away from toxicity. These shifts accumulate across four neuron groups: two reducing toxicity and two promoting anti-toxicity. Activation patching validates the cumulative roles of these groups, where patching all identified groups effectively replicates DPO's effects. These findings illustrate DPO's mechanism: it reduces toxicity by accumulating small activation shifts across many neurons throughout the layers. Our findings provide new mechanistic insights into how safety fine-tuning reduces harmful outputs in language models.
Abstract（参考訳）: 安全微調整アルゴリズムは、言語モデルにおける有害な出力を減らすために広く使われているが、どのようにしてこれを達成したのかは定かではない。毒性低減のための直接選好最適化(DPO)アルゴリズムについて、現在の説明では、DPOは有毒なMLPニューロンの活性化を抑えることでこれを達成できると主張している。しかし、アクティベーションパッチにより、この説明は不完全であることを示す。毒性プローブの方向への投射は、毒性の減少のわずか4.9%が毒性ニューロンの減衰によるものであることを示している。代わりに、DPOは、ほとんどの神経細胞の分散活性化シフトを通じて毒性を減少させ、MLP層の出力を毒性から徐々にシフトさせる。これらのシフトは4つのニューロン群にまたがって蓄積する: 2つの毒性を減少させ、2つの抗毒性を促進させる。活性化パッチングはこれらのグループの累積的な役割を検証し、特定された全てのグループをパッチングすることでDPOの効果を効果的に再現する。これらの結果は、DPOのメカニズムが示されており、層全体にわたって小さな活性化シフトを蓄積することで毒性を減少させる。本研究は,安全性向上が言語モデルにおける有害なアウトプットをいかに減少させるか,新しい力学的知見を提供する。

関連論文リスト

On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文参考訳（メタデータ） (2025-05-24T18:58:51Z)
GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。 GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文参考訳（メタデータ） (2025-05-20T08:29:11Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
Class-Conditional Neural Polarizer: A Lightweight and Effective Backdoor Defense by Purifying Poisoned Features [58.44299620519961]
最近の研究は、バックドア攻撃に対するディープニューラルネットワークの脆弱性を強調している。ニューラルポーラライザーベースディフェンス(CNPD)という,軽量なバックドアディフェンス手法を提案する。 CNPDは、バックドアモデルの予測ラベルと、浄化すべき機能を統合する。
論文参考訳（メタデータ） (2025-02-23T11:11:16Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models [23.528355254330133]
毒性を規定するニューロンは、有害な文章を識別する能力によって決定できることを示す。我々は,AUROC適応(AurA)を提案する。これは,事前訓練された任意の大規模言語モデルに適用して毒性を軽減できる介入である。
論文参考訳（メタデータ） (2024-07-02T12:48:29Z)
Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文参考訳（メタデータ） (2024-06-24T01:31:03Z)
Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents [5.030641333638739]
本研究では,ADPO(Adversarial DPO)と呼ばれる,DPO(Direct preference Optimization)の改善という,革新的なトレーニングアルゴリズムを提案する。 ADPOアルゴリズムは、より高い確率分布を望ましい応答に割り当て、低い分布を安全でない応答に割り当てるようにモデルを訓練するように設計されている。我々はADPOが性能劣化を最小限に抑えながら、有害な会話に対するモデルのレジリエンスを高めることを実証した。
論文参考訳（メタデータ） (2024-05-21T16:14:55Z)
Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文参考訳（メタデータ） (2024-05-16T09:52:21Z)
Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。 2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文参考訳（メタデータ） (2024-04-09T22:56:05Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity [33.235015978211315]
本稿では、一般的なアルゴリズム、直接選好最適化(DPO)、および毒性を減少させるメカニズムについて検討する。具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。
論文参考訳（メタデータ） (2024-01-03T20:26:15Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
An Adiabatic Capacitive Artificial Neuron with RRAM-based Threshold Detection for Energy-Efficient Neuromorphic Computing [62.997667081978825]
神経細胞の体細胞膜電位を誘導するために, 断熱性シナプスコンデンサを特徴とする人工ニューロンを提案する。最初の4-bit adiabaticacacitive neuron proof-of-conceptの例では、90%のシナプスエネルギーが節約された。
論文参考訳（メタデータ） (2022-02-02T17:12:22Z)
Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文参考訳（メタデータ） (2021-09-15T17:27:06Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。