論文の概要: Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
- arxiv url: http://arxiv.org/abs/2510.01243v1
- Date: Wed, 24 Sep 2025 03:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.7469
- Title: Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
- Title(参考訳): 自己回帰リワード誘導表現編集による大規模言語モデルのデトックス化
- Authors: Yisong Xiao, Aishan Liu, Siyuan Liang, Zonghao Ying, Xianglong Liu, Dacheng Tao,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
- 参考スコア(独自算出の注目度): 77.75609817898035
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance across various tasks, yet they remain vulnerable to generating toxic content, necessitating detoxification strategies to ensure safe and responsible deployment. Test-time detoxification methods, which typically introduce static or dynamic interventions into LLM representations, offer a promising solution due to their flexibility and minimal invasiveness. However, current approaches often suffer from imprecise interventions, primarily due to their insufficient exploration of the transition space between toxic and non-toxic outputs. To address this challenge, we propose \textsc{A}utoregressive \textsc{R}eward \textsc{G}uided \textsc{R}epresentation \textsc{E}diting (ARGRE), a novel test-time detoxification framework that explicitly models toxicity transitions within the latent representation space, enabling stable and precise reward-guided editing. ARGRE identifies non-toxic semantic directions and interpolates between toxic and non-toxic representations to reveal fine-grained transition trajectories. These trajectories transform sparse toxicity annotations into dense training signals, enabling the construction of an autoregressive reward model that delivers stable and precise editing guidance. At inference, the reward model guides an adaptive two-step editing process to obtain detoxified representations: it first performs directional steering based on expected reward gaps to shift representations toward non-toxic regions, followed by lightweight gradient-based refinements. Extensive experiments across 8 widely used LLMs show that ARGRE significantly outperforms leading baselines in effectiveness (-62.21% toxicity) and efficiency (-47.58% inference time), while preserving the core capabilities of the original model with minimal degradation. Our code is available at the website.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなタスクにわたって印象的なパフォーマンスを示しているが、有害なコンテンツの生成に弱いままであり、安全で責任のあるデプロイメントを保証するためにデトキシフィケーション戦略を必要とする。
通常、LSM表現に静的または動的介入を導入するテスト時解毒法は、柔軟性と最小侵襲性のために有望な解決策を提供する。
しかし、現在のアプローチは、主に毒性と非毒性の出力間の遷移空間の探索が不十分なため、しばしば不正確な介入に悩まされる。
この課題に対処するために、潜伏表現空間内の毒性遷移を明示的にモデル化し、安定かつ高精度な報酬誘導編集を可能にする新しいテスト時間解毒フレームワークである \textsc{A}utoregressive \textsc{R}eward \textsc{G}uided \textsc{R}epresentation \textsc{E}diting (ARGRE) を提案する。
ARGREは、毒性のないセマンティックな方向を特定し、毒性と非毒性の表現を補間し、微粒な遷移軌道を明らかにする。
これらのトラジェクトリはスパース毒性アノテーションを高密度なトレーニング信号に変換し、安定かつ正確な編集ガイダンスを提供する自己回帰報酬モデルの構築を可能にする。
まず、期待される報酬ギャップに基づいて方向性のステアリングを行い、非毒性領域に表現をシフトさせ、続いて軽量な勾配に基づく改良を行う。
広く使われている8つのLCMの大規模な実験により、ARGREは主要なベースライン(-62.21%の毒性)と効率(-47.58%の推論時間)を著しく上回り、最小限の劣化でオリジナルのモデルのコア能力を保っている。
私たちのコードはウェブサイトで入手可能です。
関連論文リスト
- Detoxifying LLMs via Representation Erasure-Based Preference Optimization [44.29978832356216]
Webスケールデータに基づいてトレーニングされた大規模言語モデル(LLM)は、有害な出力を生成することができる。
DPO、NPO、および同様のアルゴリズムを応用した先行防御は、有害な継続の可能性を減らす。
本稿では,Representation Erasure-based Preference Optimization (REPO)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:51:06Z) - Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention [6.808534332444413]
大きな言語モデル(LLM)は強力なテキストジェネレータである。
LLMは、一見無害なプロンプトが与えられたとしても、有害または有害な内容物を生成することができる。
これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
論文 参考訳(メタデータ) (2026-02-06T11:33:17Z) - Cleansing the Artificial Mind: A Self-Reflective Detoxification Framework for Large Language Models [14.566005698357747]
大言語モデル(LLM)は、顕著な生成能力と自己調節機構の出現を明らかにしている。
我々は, LLMの本来の能力を利用して, 有害な内容を検出する, 完全自己反射脱毒フレームワークを導入する。
我々の発見は、真の自己統制型言語モデルの可能性を強調し、より責任と倫理的に導かれたテキスト生成システムへの道を開いた。
論文 参考訳(メタデータ) (2026-01-16T21:01:26Z) - Projecting Out the Malice: A Global Subspace Approach to LLM Detoxification [73.77171973106567]
大規模言語モデル(LLM)は例外的な性能を示すが、有害なコンテンツを生成する固有のリスクを生じさせる。
従来の手法では、パラメータの根底にある有害領域を排除できず、敵の攻撃に弱いモデルを残している。
我々は,このグローバルな部分空間をFFNパラメータから識別・排除することで毒性を緩和する軽量な方法であるGLOSSを提案する。
論文 参考訳(メタデータ) (2026-01-09T09:34:53Z) - Evolving Prompts for Toxicity Search in Large Language Models [3.2729350470429783]
ToxSearchは、安定的なループ内でプロンプトを進化させることで、モデルの安全性をテストする進化的フレームワークである。
実用的には有意だが減衰したクロスモデル転送を観察し,ほとんどの標的に対してほぼ半分の毒性を示す。
これらの結果から, 小型で制御可能な摂動は, 系統的な赤チーム構築に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-11-16T07:47:31Z) - Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - Text Detoxification: Data Efficiency, Semantic Preservation and Model Generalization [23.328207651816957]
ソーシャルメディア上の有害コンテンツの普及は、オンライン環境や公衆の会話に深刻な脅威をもたらす。
既存のアプローチは、強力なデトキシフィケーション性能、セマンティック保存、およびアウト・オブ・ディストリビューションデータを実現するのに苦労することが多い。
本稿では,データ効率,セマンティック保存,モデル一般化を協調的に最適化する2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-23T05:48:10Z) - Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion [16.989349884904943]
ファインチューニングや補助モデルを含む現在のソリューションは通常、広範な計算資源を必要とする。
本稿では,資源と時間コストの低い活性化空間における表現工学を適用して,LMをデトックス化する新しい手法であるDeSteinを提案する。
論文 参考訳(メタデータ) (2024-04-16T11:07:48Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。