論文の概要: Forgetting Private Textual Sequences in Language Models via
Leave-One-Out Ensemble
- arxiv url: http://arxiv.org/abs/2309.16082v1
- Date: Thu, 28 Sep 2023 00:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:25:39.480951
- Title: Forgetting Private Textual Sequences in Language Models via
Leave-One-Out Ensemble
- Title(参考訳): 残余ワンアウトアンサンブルによる言語モデルにおけるプライベートテキストシーケンスの獲得
- Authors: Zhe Liu, Ozlem Kalinli
- Abstract要約: そこで本研究では,モデルから忘れられる必要のあるテキストシーケンスを学習するための,新たなアンサンブル手法を提案する。
LibriSpeechとWikiText-103データセットの実験では、提案手法は他のデータセットよりも優れたプライバシーとユーティリティのトレードオフを実現することが示されている。
- 参考スコア(独自算出の注目度): 13.893379594151533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that language models have a tendency to memorize
rare or unique token sequences in the training corpus. After deploying a model,
practitioners might be asked to delete any personal information from the model
by individuals' requests. Re-training the underlying model every time
individuals would like to practice their rights to be forgotten is
computationally expensive. We employ a teacher-student framework and propose a
novel leave-one-out ensemble method to unlearn the targeted textual sequences
that need to be forgotten from the model. In our approach, multiple teachers
are trained on disjoint sets; for each targeted sequence to be removed, we
exclude the teacher trained on the set containing this sequence and aggregate
the predictions from remaining teachers to provide supervision during
fine-tuning. Experiments on LibriSpeech and WikiText-103 datasets show that the
proposed method achieves superior privacy-utility trade-offs than other
counterparts.
- Abstract(参考訳): 近年の研究では、言語モデルがトレーニングコーパスに希少または独特なトークンシーケンスを記憶する傾向があることが示されている。
モデルをデプロイした後、実践者は個人の要求によってモデルから個人情報を削除するように要求される。
個人が忘れられる権利を実践するたびに、基礎となるモデルを再トレーニングすることは、計算コストがかかる。
そこで本研究では,教師主導の枠組みを用いて,モデルから忘れられる必要のあるテキストシーケンスを学習するための,新たなアンサンブル手法を提案する。
提案手法では,複数の教師が互いに連携して学習し,各順序を取り除き,この系列を含む集合上で訓練した教師を除外し,残りの教師から予測を集約し,微調整時の監督を行う。
librispeechとwikitext-103データセットの実験は、提案手法が他の手法よりも優れたプライバシ利用トレードオフを達成していることを示している。
関連論文リスト
- TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - Mitigating Unintended Memorization in Language Models via Alternating
Teaching [15.112637366882185]
逐次モデリングにおける意図しない記憶を緩和するための新しい手法を提案する。
本手法では,プライバシが保護を希望する解離学習セットを複数の教員に指導する。
LibriSpeechデータセットの実験により,提案手法は優れたプライバシー保護結果が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T06:26:41Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文 参考訳(メタデータ) (2022-03-15T03:11:11Z) - Deduplicating Training Data Mitigates Privacy Risks in Language Models [35.643052320353114]
プライバシ攻撃の成功の大部分は、一般的に使われているWebスクラッドトレーニングセットの重複によるものであることを示す。
本研究では,言語モデルがトレーニングシーケンスを再生する速度が,トレーニングセット内のシーケンス数と超直線的に関連していることを示す。
トレーニングデータの非重複化にメソッドを適用すると、このようなプライバシ攻撃に対して言語モデルの方がかなり安全であることが分かりました。
論文 参考訳(メタデータ) (2022-02-14T08:20:15Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。