論文の概要: Detoxifying LLMs via Representation Erasure-Based Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.23391v1
- Date: Tue, 24 Feb 2026 22:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.064911
- Title: Detoxifying LLMs via Representation Erasure-Based Preference Optimization
- Title(参考訳): 表現消去に基づく参照最適化によるLLMのデトックス化
- Authors: Nazanin Mohammadi Sepahvand, Eleni Triantafillou, Hugo Larochelle, Doina Precup, Daniel M. Roy, Gintare Karolina Dziugaite,
- Abstract要約: Webスケールデータに基づいてトレーニングされた大規模言語モデル(LLM)は、有害な出力を生成することができる。
DPO、NPO、および同様のアルゴリズムを応用した先行防御は、有害な継続の可能性を減らす。
本稿では,Representation Erasure-based Preference Optimization (REPO)を提案する。
- 参考スコア(独自算出の注目度): 44.29978832356216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) trained on webscale data can produce toxic outputs, raising concerns for safe deployment. Prior defenses, based on applications of DPO, NPO, and similar algorithms, reduce the likelihood of harmful continuations, but not robustly so: they are vulnerable to adversarial prompting and easily undone by fine-tuning-based relearning attacks. Indeed, research has shown that these edits to the model are superficial: linear probing reveals that harmful "directions" remain present in representations. To address this, we propose Representation Erasure-based Preference Optimization (REPO), reformulating detoxification as a token-level preference problem. Using a novel objective with preference data, we force the representations of toxic continuations to converge toward their benign counterparts. Our mechanistic analysis reveals that this granular approach is critical: unlike baselines, REPO induces deep, localized edits to toxicity-encoding neurons while preserving general model utility. Exhaustive evaluations show that REPO achieves state-of-the-art robustness, stopping sophisticated threats-including relearning attacks and enhanced GCG jailbreaks-where existing representation- and output-based methods fail.
- Abstract(参考訳): Webスケールデータに基づいてトレーニングされた大規模言語モデル(LLM)は、有害なアウトプットを生成し、安全なデプロイメントに関する懸念を提起する。
DPO、NPO、それに類似したアルゴリズムの応用に基づく以前の防御は、有害な継続の可能性を減らすが、堅牢ではない。
実際、研究によってこれらのモデルへの編集は表面的であることが示されている: 線形探索は、有害な「方向」が表現に残っていることを明らかにしている。
そこで我々はRepresentation Erasure-based Preference Optimization (REPO)を提案する。
嗜好データを用いた新たな目的を用いて、有害な連続の表現をそれらの良質な対象に向かって収束させることを強制する。
ベースラインとは異なり、REPOは一般的なモデルユーティリティを保ちながら、毒性をコードするニューロンに深い局所的な編集を誘導する。
Exhaustive Evaluationsによると、REPOは最先端の堅牢性を達成し、高度な脅威(再学習攻撃を含む)を阻止し、既存の表現および出力ベースのメソッドが失敗するGCGジェイルブレイクを強化している。
関連論文リスト
- Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Graph Representation-based Model Poisoning on Federated Large Language Models [3.5233863453805143]
フェデレートされた大規模言語モデル(FedLLMs)は、データのプライバシを保持しながら、無線ネットワーク内で強力な生成機能を実現する。
本稿では,FedLLMのモデル中毒技術と既存の防御機構の最近の進歩について概説する。
さらに、グラフ表現に基づくモデル中毒(GRMP)は、良質なクライアント勾配間の高次相関を利用して、悪意ある更新を正当なものと区別できないものにする新興攻撃パラダイムである。
論文 参考訳(メタデータ) (2025-07-02T13:20:52Z) - Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z) - CART-based Synthetic Tabular Data Generation for Imbalanced Regression [1.342834401139078]
我々は、既存のCARTベースの合成データ生成手法を適応させ、不均衡回帰に適合させることを提案する。
本手法は, 対象空間のスパース領域におけるサンプリングを誘導するための関連性および密度に基づくメカニズムを統合する。
本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-03T12:42:20Z) - Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO [19.5712961932773]
我々は、直接選好最適化(DPO)を再考し、その損失が理論的に分解された改革を認めることを実証する。
PRO (Proximalized PReference Optimization) を導入し,多様な課金型に対応する統一手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T10:23:22Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。