論文の概要: Machine Learners Should Acknowledge the Legal Implications of Large Language Models as Personal Data
- arxiv url: http://arxiv.org/abs/2503.01630v1
- Date: Mon, 03 Mar 2025 15:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:27:02.053215
- Title: Machine Learners Should Acknowledge the Legal Implications of Large Language Models as Personal Data
- Title(参考訳): 機械学習の学習者は、個人データとしての大規模言語モデルの法的意味を理解すべきである
- Authors: Henrik Nolte, Michèle Finck, Kristof Meding,
- Abstract要約: したがって、いくつかの機械学習モデルは、個人データとみなすことができる。
これにより、アクセス権、修正権、消去権など、データ保護の意味のカスケードが引き起こされる。
本稿では,機械学習研究者がML開発ライフサイクル全体を通じて,LLMの法的意味を個人データとして認めなければならないことを論じる。
- 参考スコア(独自算出の注目度): 2.4578723416255754
- License:
- Abstract: Does GPT know you? The answer depends on your level of public recognition; however, if your information was available on a website, the answer is probably yes. All Large Language Models (LLMs) memorize training data to some extent. If an LLM training corpus includes personal data, it also memorizes personal data. Developing an LLM typically involves processing personal data, which falls directly within the scope of data protection laws. If a person is identified or identifiable, the implications are far-reaching: the AI system is subject to EU General Data Protection Regulation requirements even after the training phase is concluded. To back our arguments: (1.) We reiterate that LLMs output training data at inference time, be it verbatim or in generalized form. (2.) We show that some LLMs can thus be considered personal data on their own. This triggers a cascade of data protection implications such as data subject rights, including rights to access, rectification, or erasure. These rights extend to the information embedded with-in the AI model. (3.) This paper argues that machine learning researchers must acknowledge the legal implications of LLMs as personal data throughout the full ML development lifecycle, from data collection and curation to model provision on, e.g., GitHub or Hugging Face. (4.) We propose different ways for the ML research community to deal with these legal implications. Our paper serves as a starting point for improving the alignment between data protection law and the technical capabilities of LLMs. Our findings underscore the need for more interaction between the legal domain and the ML community.
- Abstract(参考訳): GPTはあなたを知っていますか。
答えは、あなたの認識レベルによって異なるが、もしあなたの情報がウェブサイトで入手できたら、答えはおそらくイエスだ。
すべてのLLM(Large Language Models)は、トレーニングデータをある程度記憶する。
LLMトレーニングコーパスが個人データを含む場合、個人データを記憶する。
LLMの開発には一般的に個人データの処理が伴うが、これはデータ保護法の範囲内に直接該当する。
トレーニングフェーズが終了した後も、AIシステムはEU一般データ保護規則の要件に従わなければならない。
1.) LLMsは推論時にトレーニングデータを出力し、それは冗長か、あるいは一般化された形式である、と繰り返します。
(2)。
したがって、一部のLCMは個人データとみなすことができる。
これにより、アクセス権、修正権、消去権など、データ対象の権利のようなデータ保護のケースが引き起こされる。
これらの権利は、AIモデルに埋め込まれた情報にまで及ぶ。
3)であった。
機械学習の研究者たちは、データ収集やキュレーションからモデルプロビジョニング、例えばGitHubやHugging Faceに至るまで、ML開発ライフサイクル全体を通して、LLMの法的意味を個人データとして認めなければならない、と論じる。
(4)。
我々は、ML研究コミュニティがこれらの法的意味に対処する様々な方法を提案する。
本稿は,データ保護法とLLMの技術的能力の整合性を改善するための出発点として機能する。
我々の研究結果は、法的領域とMLコミュニティとの相互作用の必要性を浮き彫りにした。
関連論文リスト
- Scaling Laws for Differentially Private Language Models [53.14592585413073]
スケーリング法則は、大規模言語モデル(LLM)トレーニングの重要なコンポーネントとして現れ、スケールによるパフォーマンス向上を予測することができる。
LLMは(時にはセンシティブな)ユーザデータから得られるような、大規模で高品質なトレーニングデータセットに依存しています。
この機密性の高いユーザーデータのトレーニングモデルは、差分プライバシー(DP)のような慎重なプライバシー保護を必要とする
論文 参考訳(メタデータ) (2025-01-31T06:32:46Z) - Data Defenses Against Large Language Models [19.337209235295063]
データディフェンス"により、データ所有者は、大きな言語モデルがデータに対する推論の実行をブロックできる。
本研究では, 逆方向のインジェクションを自動生成する手法を開発した。
このような推論に対する直接的な抵抗を可能にする倫理について検討する。
論文 参考訳(メタデータ) (2024-10-17T01:51:56Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Beyond Memorization: Violating Privacy Via Inference with Large Language Models [2.9373912230684565]
本稿では,テキストから個人属性を推測する事前学習言語モデルの能力に関する,最初の総合的研究について述べる。
以上の結果から,現在のLCMでは,従来は達成不可能な規模で個人データを推測することが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T08:32:46Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - What can we learn from Data Leakage and Unlearning for Law? [0.0]
大規模言語モデル(LLM)は、トレーニングデータ(電子メールや電話番号などの個人識別可能な情報(PII)を含む)を記憶し、推論中にそれを漏洩させるため、プライバシー上の懸念がある。
忘れられる権利(right to be forget)”のようなプライバシー法に従うために、抽出に最も脆弱なユーザのデータポイントを削除することができる。
また, トレーニング前段階で記憶したトレーニング前データ(およびPII)を漏洩させる。
論文 参考訳(メタデータ) (2023-07-19T22:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。