論文の概要: DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion
- arxiv url: http://arxiv.org/abs/2404.10464v3
- Date: Sat, 10 Aug 2024 14:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:17:20.168130
- Title: DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion
- Title(参考訳): DESTEIN:ユニバーサルステアリングペアとヘッドワイドアクティベーションフュージョンによる言語モデルのデトックス化のナビゲート
- Authors: Yu Li, Han Jiang, Chuanyang Gong, Zhihua Wei,
- Abstract要約: ファインチューニングや補助モデルを含む現在のソリューションは通常、広範な計算資源を必要とする。
本稿では,資源と時間コストの低い活性化空間における表現工学を適用して,LMをデトックス化する新しい手法であるDeSteinを提案する。
- 参考スコア(独自算出の注目度): 16.989349884904943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable achievements of language models (LMs) across a broad spectrum of tasks, their propensity for generating toxic outputs remains a prevalent concern. Current solutions involving finetuning or auxiliary models usually require extensive computational resources, hindering their practicality in large language models (LLMs). In this paper, we propose DeStein, a novel method that detoxifies LMs by applying representation engineering in activation spaces with lower resource and time costs. Specifically, we derive detoxification vectors from self-induced, universal steering pairs through arithmetic operations in activation spaces. During inference, detoxification is achieved by fusing the detoxification vectors with the original representations in a head-wise manner. Empirical results demonstrate that our method significantly outperforms previous state-of-the-art approaches on various metrics, while also maintaining satisfactory generation quality and diversity. We further validate the practicality and scalability of DeStein with a series of white-box LLMs. The method is open-sourced at https://github.com/LizLizLi/DeStein. Warning: Some example model outputs may contain highly offensive or disturbing text.
- Abstract(参考訳): 言語モデル (LM) は様々なタスクにまたがる顕著な成果にもかかわらず、有害なアウトプットを生成するための妥当性は依然として大きな関心事である。
ファインチューニングや補助モデルを含む現在のソリューションは、通常、広範囲な計算資源を必要とし、大きな言語モデル(LLM)におけるそれらの実用性を妨げている。
本稿では,資源・時間コストの低い活性化空間における表現工学の適用により,LMをデトックス化する新しい手法であるDeSteinを提案する。
具体的には,活性化空間における算術演算を通じて,自己誘導的,普遍的ステアリング対からデトックス化ベクトルを導出する。
推論中、デトキシフィケーションベクトルと元の表現を頭部的に融合させることによりデトキシフィケーションが達成される。
実験結果から,本手法は様々な指標に対する従来の最先端手法よりも優れており,良好な生成品質と多様性を維持していることがわかった。
さらに,一連のホワイトボックスLLMを用いて,DeSteinの実用性とスケーラビリティを検証した。
このメソッドはhttps://github.com/LizLizLi/DeSteinでオープンソース化されている。
警告: いくつかのモデル出力には、非常に攻撃的あるいは乱雑なテキストが含まれている可能性がある。
関連論文リスト
- Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language
Model Outputs [20.772266479533776]
AXOLOTLはタスクやモデル間で不可知的に動作する新しい後処理フレームワークである。
バイアスを識別し、解像度を提案し、モデルにアウトプットを自己バイアスさせる。
このアプローチは計算コストを最小化し、モデル性能を保存する。
論文 参考訳(メタデータ) (2024-03-01T00:02:37Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation [5.210143170392524]
本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:13:51Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - GeDi: Generative Discriminator Guided Sequence Generation [53.15651536569169]
本稿では,より小さなLMを生成的識別器として利用し,大規模なLMから生成を誘導する効率的な方法としてGeDiを提案する。
GeDiは最先端技術よりも制御性が強く,生成速度も30倍以上に向上することがわかった。
論文 参考訳(メタデータ) (2020-09-14T17:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。