論文の概要: DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion
- arxiv url: http://arxiv.org/abs/2404.10464v2
- Date: Tue, 23 Apr 2024 07:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:36:58.263074
- Title: DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion
- Title(参考訳): DESTEIN:ユニバーサルステアリングペアとヘッドワイドアクティベーションフュージョンによる言語モデルのデトックス化のナビゲート
- Authors: Yu Li, Zhihua Wei, Han Jiang, Chuanyang Gong,
- Abstract要約: 本稿では,言語モデルをデトキシフィケーションする新しい手法であるDeSteinを提案する。
自己誘導型ステアリングペアを用いてデトックス化ベクトルを同定する。
推論中、デトキシフィケーションベクトルと元の表現をブレンドすることでデトキシフィケーションが達成される。
- 参考スコア(独自算出の注目度): 16.989349884904943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable achievements of language models (LMs) across a broad spectrum of tasks, their propensity for generating toxic outputs remains a prevalent concern. Current solutions involving fine-tuning or auxiliary models usually require extensive memory and computational resources, rendering them less practical for deployment in large language models (LLMs). In this paper, we propose DeStein, a novel method that detoxififies LMs by altering their internal representations in the activation space with lower resource and time cost. Specifically, we leverage self-induced steering pairs to identify detoxification vectors through arithmetic operations in the activation space. During inference, detoxification is achieved by blending the detoxification vectors with the original representations. Empirical results demonstrate that our method significantly outperforms previous state-of-the-art approaches on popular detoxification metrics, while also maintaining satisfactory generation quality and diversity. Furthermore, we extend our method to multiple LLMs, demonstrating its practicality and scalability. We open-source our method at https://github.com/LizLizLi/DeStein . Warning: Some example model outputs contain highly offensive or disturbing text.
- Abstract(参考訳): 言語モデル (LM) は様々なタスクにまたがる顕著な成果にもかかわらず、有害なアウトプットを生成するための妥当性は依然として大きな関心事である。
微調整または補助モデルを含む現在のソリューションは、通常、広範囲のメモリと計算資源を必要とするため、大きな言語モデル(LLM)への展開には実用的でない。
本稿では,活性化空間における内部表現を低リソースかつ時間的コストで変化させることにより,LMをデトキシフィケーションする新しい手法であるDeSteinを提案する。
具体的には,自己誘導型ステアリングペアを利用して,活性化空間の算術演算を通じてデトキシフィケーションベクトルを同定する。
推論中、デトキシフィケーションベクトルと元の表現をブレンドすることでデトキシフィケーションが達成される。
実験結果から,本手法は一般的なデトキシ化指標に対する従来の最先端手法よりも優れており,良好な生成品質と多様性を維持していることがわかった。
さらに,本手法を複数のLLMに拡張し,実用性と拡張性を示す。
当社のメソッドはhttps://github.com/LizLizLi/DeSteinで公開しています。
警告: いくつかのモデル出力には、非常に攻撃的または乱雑なテキストが含まれている。
関連論文リスト
- Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language
Model Outputs [20.772266479533776]
AXOLOTLはタスクやモデル間で不可知的に動作する新しい後処理フレームワークである。
バイアスを識別し、解像度を提案し、モデルにアウトプットを自己バイアスさせる。
このアプローチは計算コストを最小化し、モデル性能を保存する。
論文 参考訳(メタデータ) (2024-03-01T00:02:37Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation [5.210143170392524]
本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:13:51Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - GeDi: Generative Discriminator Guided Sequence Generation [53.15651536569169]
本稿では,より小さなLMを生成的識別器として利用し,大規模なLMから生成を誘導する効率的な方法としてGeDiを提案する。
GeDiは最先端技術よりも制御性が強く,生成速度も30倍以上に向上することがわかった。
論文 参考訳(メタデータ) (2020-09-14T17:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。