論文の概要: WPN: An Unlearning Method Based on N-pair Contrastive Learning in Language Models
- arxiv url: http://arxiv.org/abs/2408.09459v1
- Date: Sun, 18 Aug 2024 12:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:30:46.954608
- Title: WPN: An Unlearning Method Based on N-pair Contrastive Learning in Language Models
- Title(参考訳): WPN:言語モデルにおけるNペアコントラスト学習に基づく未学習手法
- Authors: Guitao Chen, Yunshen Wang, Hongye Sun, Guang Chen,
- Abstract要約: 生成言語モデル(LM)は、事前訓練中に得られた有害な知識のために不適切または有害な出力を生成する。
我々は,n対の相対的学習フレームワークにおいて,位置重み付き平均プールを利用する重み付き位置Nペア学習(WPN)を提案する。
OPTおよびGPT-NEO LMの実験では、WPNは有害反応の割合を効果的に減少させ、最大95.8%の無害率を達成することが示されている。
- 参考スコア(独自算出の注目度): 3.2200593267837987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative language models (LMs) offer numerous advantages but may produce inappropriate or harmful outputs due to the harmful knowledge acquired during pre-training. This knowledge often manifests as undesirable correspondences, such as "harmful prompts" leading to "harmful outputs," which our research aims to mitigate through unlearning techniques.However, existing unlearning methods based on gradient ascent can significantly impair the performance of LMs. To address this issue, we propose a novel approach called Weighted Positional N-pair (WPN) Learning, which leverages position-weighted mean pooling within an n-pair contrastive learning framework. WPN is designed to modify the output distribution of LMs by eliminating specific harmful outputs (e.g., replacing toxic responses with neutral ones), thereby transforming the model's behavior from "harmful prompt-harmful output" to "harmful prompt-harmless response".Experiments on OPT and GPT-NEO LMs show that WPN effectively reduces the proportion of harmful responses, achieving a harmless rate of up to 95.8\% while maintaining stable performance on nine common benchmarks (with less than 2\% degradation on average). Moreover, we provide empirical evidence to demonstrate WPN's ability to weaken the harmful correspondences in terms of generalizability and robustness, as evaluated on out-of-distribution test sets and under adversarial attacks.
- Abstract(参考訳): 生成言語モデル(LM)には多くの利点があるが、事前訓練中に得られる有害な知識のために、不適切または有害なアウトプットを生み出す可能性がある。
この知識は、しばしば「有害なプロンプト」のような望ましくない対応として現れ、「有害なアウトプット」へとつながり、未学習の技法を緩和することを目的としているが、しかしながら、勾配上昇に基づく既存の未学習手法は、LMの性能を著しく損なう可能性がある。
この問題に対処するために,n対の相対的学習フレームワークにおいて,位置重み付き平均プールを利用するWPN学習(Weighted Positional N-pair)を提案する。
WPNは、特定の有害な出力(例えば有害な応答を中性的なものに置き換える)を排除し、モデルの振る舞いを「有害なプロンプト・ハームフルな出力」から「有害なプロンプト・ハームレスな応答」に変換することで、LMの出力分布を変更するように設計されている。
OPT および GPT-NEO LM の実験では、WPN は有害反応の割合を効果的に減少させ、9つの共通ベンチマークで安定な性能を維持しながら、95.8 %の無害率を達成する(平均 2 % 未満の劣化)。
さらに,WPNが有害な対応を一般化性や堅牢性の観点から弱めていることを示す実証的証拠を,アウト・オブ・ディストリビューション・テストセットおよび敵攻撃下で評価した。
関連論文リスト
- Don't Say No: Jailbreaking LLM by Suppressing Refusal [13.666830169722576]
本研究では,バニラ目標損失が最適でない理由を最初に明らかにし,損失目標を探索・拡張し,DSN(Don't Say No)攻撃を導入する。
Refusalキーワードマッチングのような既存の評価では、多くの偽陽性および偽陰性インスタンスが明らかである。
この課題を克服するために,自然言語推論(NLI)の矛盾評価と2つの外部LCM評価器を新たに組み込んだアンサンブル評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-25T07:15:23Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - No Strong Feelings One Way or Another: Re-operationalizing Neutrality in
Natural Language Inference [6.485890157501745]
自然言語推論(NLI)は、言語モデルの推論推論能力を評価するための基礎的なタスクである。
NLIで使用される標準的な3方向分類スキームは、自然な人間の推論のニュアンスを捉えるモデルの能力を評価するのに、よく知られた欠点がある。
我々は、現在のNLIデータセットにおける中立ラベルの運用は、妥当性が低く、矛盾なく解釈され、少なくとも1つの重要な中立感が無視されることを論じる。
論文 参考訳(メタデータ) (2023-06-16T15:45:08Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。