論文の概要: SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions
- arxiv url: http://arxiv.org/abs/2406.12329v1
- Date: Tue, 18 Jun 2024 06:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:25:52.423316
- Title: SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions
- Title(参考訳): SNAP:否定的指示を伴う大規模言語モデルにおける選択的知識の学習
- Authors: Minseok Choi, Daniel Rim, Dohyun Lee, Jaegul Choo,
- Abstract要約: 命令追従型大規模言語モデル(LLM)は、個人または著作権のある情報を故意に開示する。
SNAPは,情報を選択的に学習するための革新的なフレームワークである。
我々は,NLPベンチマークにおけるフレームワークの評価を行い,提案手法が元のLLM能力を維持していることを示す。
- 参考スコア(独自算出の注目度): 37.172662930947446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-following large language models (LLMs), such as ChatGPT, have become increasingly popular with the general audience, many of whom are incorporating them into their daily routines. However, these LLMs inadvertently disclose personal or copyrighted information, which calls for a machine unlearning method to remove selective knowledge. Previous attempts sought to forget the link between the target information and its associated entities, but it rather led to generating undesirable responses about the target, compromising the end-user experience. In this work, we propose SNAP, an innovative framework designed to selectively unlearn information by 1) training an LLM with negative instructions to generate obliterated responses, 2) augmenting hard positives to retain the original LLM performance, and 3) applying the novel Wasserstein regularization to ensure adequate deviation from the initial weights of the LLM. We evaluate our framework on various NLP benchmarks and demonstrate that our approach retains the original LLM capabilities, while successfully unlearning the specified information.
- Abstract(参考訳): ChatGPTのような命令追従型大規模言語モデル(LLM)は、一般の聴衆の間で人気が高まっており、その多くが日々のルーチンにそれらを取り入れている。
しかし、これらのLLMは必然的に個人または著作権のある情報を開示し、選択的な知識を取り除くための機械の学習方法を要求する。
以前の試みでは、ターゲット情報とその関連エンティティ間のリンクを忘れようとしたが、むしろターゲットに関する望ましくない応答を生成し、エンドユーザエクスペリエンスを損なうことになった。
本研究では,SNAPを提案する。SNAPは,情報を選択的に学習するための革新的なフレームワークである。
1) 消灯応答を生成するために負の指示でLDMを訓練すること。
2)元のLDM性能を維持するためにハードポジティクスを増強し、
3) 新規なワッサースタイン正則化を適用して, LLMの初期重量から適切な偏差を確保する。
我々は,NLPベンチマークのフレームワークの評価を行い,提案手法が元のLLM能力を保ちながら,特定情報の学習に成功していることを示す。
関連論文リスト
- FUNU: Boosting Machine Unlearning Efficiency by Filtering Unnecessary Unlearning [9.472692023087223]
本研究では不必要な未学習につながるデータポイントを同定するFUNUを提案する。
FUNUの理論的解析を行い,その有効性を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2025-01-28T01:19:07Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Update Selective Parameters: Federated Machine Unlearning Based on Model Explanation [46.86767774669831]
モデル説明の概念に基づく、より効率的で効率的なフェデレーション・アンラーニング・スキームを提案する。
我々は、未学習のデータに対して、すでに訓練済みのモデルの中で最も影響力のあるチャネルを選択します。
論文 参考訳(メタデータ) (2024-06-18T11:43:20Z) - Towards Efficient Target-Level Machine Unlearning Based on Essential Graph [18.35868679190816]
機械学習の既存の研究は、主に1つのクラスからインスタンスのクラスタやすべてのインスタンスを忘れる未学習の要求に焦点を当てている。
モデルから部分的対象を除去することに焦点を当てた、より効率的で効率的な非学習手法を提案する。
様々なデータセット上で異なるトレーニングモデルを用いた実験は、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-06-16T14:17:13Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。