論文の概要: Who's Harry Potter? Approximate Unlearning in LLMs
- arxiv url: http://arxiv.org/abs/2310.02238v1
- Date: Tue, 3 Oct 2023 17:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 12:55:47.769422
- Title: Who's Harry Potter? Approximate Unlearning in LLMs
- Title(参考訳): ハリー・ポッターって誰?
LLMにおける近似アンラーニング
- Authors: Ronen Eldan and Mark Russinovich
- Abstract要約: 大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.821438899378393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are trained on massive internet corpora that
often contain copyrighted content. This poses legal and ethical challenges for
the developers and users of these models, as well as the original authors and
publishers. In this paper, we propose a novel technique for unlearning a subset
of the training data from a LLM, without having to retrain it from scratch.
We evaluate our technique on the task of unlearning the Harry Potter books
from the Llama2-7b model (a generative language model recently open-sourced by
Meta). While the model took over 184K GPU-hours to pretrain, we show that in
about 1 GPU hour of finetuning, we effectively erase the model's ability to
generate or recall Harry Potter-related content, while its performance on
common benchmarks (such as Winogrande, Hellaswag, arc, boolq and piqa) remains
almost unaffected. We make our fine-tuned model publicly available on
HuggingFace for community evaluation. To the best of our knowledge, this is the
first paper to present an effective technique for unlearning in generative
language models.
Our technique consists of three main components: First, we use a reinforced
model that is further trained on the target data to identify the tokens that
are most related to the unlearning target, by comparing its logits with those
of a baseline model. Second, we replace idiosyncratic expressions in the target
data with generic counterparts, and leverage the model's own predictions to
generate alternative labels for every token. These labels aim to approximate
the next-token predictions of a model that has not been trained on the target
data. Third, we finetune the model on these alternative labels, which
effectively erases the original text from the model's memory whenever it is
prompted with its context.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,トレーニングデータのサブセットをスクラッチから再トレーニングすることなく,llmからアンラーニングする手法を提案する。
我々はLlama2-7bモデル(最近Metaがオープンソース化した生成言語モデル)からHarry Potterの本を学習するタスクについて評価した。
モデルが事前トレーニングに184K以上のGPU時間を要する一方で、約1GPUの微調整によって、Harry Potter関連のコンテンツを生成またはリコールする能力は事実上消失し、一般的なベンチマーク(Winogrande、Hellaswag、arc、boolq、piqaなど)のパフォーマンスはほとんど影響を受けていない。
コミュニティ評価のために、HuggingFaceで微調整されたモデルを公開しています。
我々の知る限りでは、生成言語モデルにおける非学習の効果的な手法を提示する最初の論文である。
まず、ターゲットデータ上でさらに訓練された強化モデルを使用して、学習対象と最も関連のあるトークンを特定し、そのロジットをベースラインモデルと比較する。
第2に,対象データの慣用的表現を汎用的な表現に置き換え,モデル独自の予測を用いてトークン毎に代替ラベルを生成する。
これらのラベルは、ターゲットデータでトレーニングされていないモデルの次の予測を近似することを目的としている。
第3に、これらの代替ラベルでモデルを微調整し、モデルのコンテキストで促されるたびに、モデルのメモリから元のテキストを効果的に消去する。
関連論文リスト
- How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold [50.33428591760124]
学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。
我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:28:14Z) - FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models [38.76912842622624]
プレトレーニング言語モデル(PLM)は、様々な自然言語生成(NLG)タスクにおいて印象的な結果を示している。
本研究では, PLMが生成するテキストの独創性を高めることを目的とした, 独特な「自己プラギアリズム」コントラスト的復号戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T19:17:00Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - CodeArt: Better Code Models by Attention Regularization When Symbols Are
Lacking [12.458135956476639]
トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。
しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。
本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T05:13:22Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - To Transfer or Not to Transfer: Misclassification Attacks Against
Transfer Learned Text Classifiers [10.762008415887195]
本稿では,教師(公)モデルで学習した意図しない特徴を利用して,生徒(下流)モデルに対する敵対的な例を生成する新しい攻撃手法を提案する。
まず,文脈自由な単語レベルの埋め込みモデルを用いて学習した学生モデルに対して,新たな単語スコアベースの攻撃アルゴリズムを提案する。
次に、文脈対応BERTモデルを用いて訓練されたフェイクニュース検出タスクに対して、長さベースおよび文ベース誤分類攻撃を示す。
論文 参考訳(メタデータ) (2020-01-08T10:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。