論文の概要: What can we learn from Data Leakage and Unlearning for Law?
- arxiv url: http://arxiv.org/abs/2307.10476v1
- Date: Wed, 19 Jul 2023 22:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:28:53.349945
- Title: What can we learn from Data Leakage and Unlearning for Law?
- Title(参考訳): Data LeakageとUnlearning for Lawから何が学べるか?
- Authors: Jaydeep Borkar
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータ(電子メールや電話番号などの個人識別可能な情報(PII)を含む)を記憶し、推論中にそれを漏洩させるため、プライバシー上の懸念がある。
忘れられる権利(right to be forget)”のようなプライバシー法に従うために、抽出に最も脆弱なユーザのデータポイントを削除することができる。
また, トレーニング前段階で記憶したトレーニング前データ(およびPII)を漏洩させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have a privacy concern because they memorize
training data (including personally identifiable information (PII) like emails
and phone numbers) and leak it during inference. A company can train an LLM on
its domain-customized data which can potentially also include their users' PII.
In order to comply with privacy laws such as the "right to be forgotten", the
data points of users that are most vulnerable to extraction could be deleted.
We find that once the most vulnerable points are deleted, a new set of points
become vulnerable to extraction. So far, little attention has been given to
understanding memorization for fine-tuned models. In this work, we also show
that not only do fine-tuned models leak their training data but they also leak
the pre-training data (and PII) memorized during the pre-training phase. The
property of new data points becoming vulnerable to extraction after unlearning
and leakage of pre-training data through fine-tuned models can pose significant
privacy and legal concerns for companies that use LLMs to offer services. We
hope this work will start an interdisciplinary discussion within AI and law
communities regarding the need for policies to tackle these issues.
- Abstract(参考訳): 大きな言語モデル(LLM)は、トレーニングデータ(電子メールや電話番号などの個人識別可能な情報(PII)を含む)を記憶し、推論中にそれをリークするため、プライバシー上の懸念がある。
企業は、LLMをそのドメインにカスタマイズされたデータに基づいてトレーニングすることができる。
忘れられる権利(right to be forget)”のようなプライバシー法に従うために、抽出に最も脆弱なユーザのデータポイントを削除することができる。
最も脆弱なポイントが削除されると、新たなポイントセットが抽出に脆弱になることが分かりました。
これまでのところ、微調整モデルに対する記憶の理解にはほとんど注意が払われていない。
また,本研究では,微調整モデルがトレーニングデータを漏洩するだけでなく,事前学習期間中に記憶された事前学習データ(およびPII)を漏洩させることを示す。
未学習と微調整モデルによる事前学習データの漏洩により、新たなデータポイントが抽出に脆弱になることは、LLMを使用してサービスを提供する企業にとって、重大なプライバシーと法的懸念を引き起こす可能性がある。
この取り組みが、これらの問題に取り組むためのポリシーの必要性について、AIと法律コミュニティ内で学際的な議論を始めることを願っています。
関連論文リスト
- FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。
我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文 参考訳(メタデータ) (2024-10-30T02:41:26Z) - Federated Learning Privacy: Attacks, Defenses, Applications, and Policy Landscape - A Survey [27.859861825159342]
ディープラーニングは、さまざまなタスクにおいて、信じられないほど大きな可能性を秘めている。
プライバシーに関する最近の懸念は、そのようなデータにアクセスする際の課題をさらに強調している。
フェデレーション学習は重要なプライバシー保護技術として登場した。
論文 参考訳(メタデータ) (2024-05-06T16:55:20Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models [1.443696537295348]
プライバシーの漏洩と著作権侵害はまだ未発見だ。
我々の未学習のアルゴリズムは、データに依存しない/モデルに依存しないだけでなく、ユーティリティの保存やプライバシー保証の観点からも堅牢であることが証明されている。
論文 参考訳(メタデータ) (2024-03-13T18:57:30Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z) - Certified Data Removal in Sum-Product Networks [78.27542864367821]
収集したデータの削除は、データのプライバシを保証するのに不十分であることが多い。
UnlearnSPNは、訓練された総生産ネットワークから単一データポイントの影響を取り除くアルゴリズムである。
論文 参考訳(メタデータ) (2022-10-04T08:22:37Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Survey: Leakage and Privacy at Inference Time [59.957056214792665]
公開されている機械学習(ML)モデルからのデータの漏洩は、ますます重要になっている分野である。
公開モデルの最も可能性の高いシナリオとして、推論時のリークに注目します。
本稿では,不随意・不随意の漏洩,防御,そして現在利用可能な評価指標と応用にまたがる分類法を提案する。
論文 参考訳(メタデータ) (2021-07-04T12:59:16Z) - Security and Privacy Preserving Deep Learning [2.322461721824713]
ディープラーニングに必要な膨大なデータ収集は、明らかにプライバシーの問題を提示している。
写真や音声録音などの、個人的かつ高感度なデータは、収集する企業によって無期限に保持される。
深層ニューラルネットワークは、トレーニングデータに関する情報を記憶するさまざまな推論攻撃の影響を受けやすい。
論文 参考訳(メタデータ) (2020-06-23T01:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。