論文の概要: The Files are in the Computer: Copyright, Memorization, and Generative AI
- arxiv url: http://arxiv.org/abs/2404.12590v4
- Date: Mon, 11 Nov 2024 19:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:03.000763
- Title: The Files are in the Computer: Copyright, Memorization, and Generative AI
- Title(参考訳): ファイルはコンピュータにある:著作権、記憶、生成AI
- Authors: A. Feder Cooper, James Grimmelmann,
- Abstract要約: ニューヨーク・タイムズのOpenAIとマイクロソフトに対する著作権訴訟は、OpenAIのGPTモデルがNYTの記事を「記憶している」と主張している。
これらの議論は「記憶」の性質に関する曖昧さによって曇っている。
我々は、記憶の正確な定義を提供するために、技術的な文献を描きます。
- 参考スコア(独自算出の注目度): 2.1178416840822027
- License:
- Abstract: The New York Times's copyright lawsuit against OpenAI and Microsoft alleges OpenAI's GPT models have "memorized" NYT articles. Other lawsuits make similar claims. But parties, courts, and scholars disagree on what memorization is, whether it is taking place, and what its copyright implications are. These debates are clouded by ambiguities over the nature of "memorization." We attempt to bring clarity to the conversation. We draw on the technical literature to provide a firm foundation for legal discussions, providing a precise definition of memorization: a model has "memorized" a piece of training data when (1) it is possible to reconstruct from the model (2) a near-exact copy of (3) a substantial portion of (4) that piece of training data. We distinguish memorization from "extraction" (user intentionally causes a model to generate a near-exact copy), from "regurgitation" (model generates a near-exact copy, regardless of user intentions), and from "reconstruction" (the near-exact copy can be obtained from the model by any means). Several consequences follow. (1) Not all learning is memorization. (2) Memorization occurs when a model is trained; regurgitation is a symptom not its cause. (3) A model that has memorized training data is a "copy" of that training data in the sense used by copyright. (4) A model is not like a VCR or other general-purpose copying technology; it is better at generating some types of outputs (possibly regurgitated ones) than others. (5) Memorization is not a phenomenon caused by "adversarial" users bent on extraction; it is latent in the model itself. (6) The amount of training data that a model memorizes is a consequence of choices made in training. (7) Whether or not a model that has memorized actually regurgitates depends on overall system design. In a very real sense, memorized training data is in the model--to quote Zoolander, the files are in the computer.
- Abstract(参考訳): ニューヨーク・タイムズのOpenAIとマイクロソフトに対する著作権訴訟は、OpenAIのGPTモデルがNYTの記事を「記憶している」と主張している。
他の訴訟も同様の主張をしている。
しかし、当事者、裁判所、学者は、暗記が何であるか、それが起きているかどうか、その著作権の意味について意見が一致しない。
これらの議論は「記憶」の性質に関する曖昧さによって曇っている。
私たちはその会話に明快さを持ち込もうとする。
我々は,(1)モデルから再構築可能な場合,(1)トレーニングデータの実質的な部分である(3)トレーニングデータのほぼ完全なコピーである(2)から復元可能な場合には,モデルがトレーニングデータの1片を「記憶」した,という,正確な記憶の正確な定義を提供するとともに,法的議論の確固たる基盤を提供するための技術文献を描いている。
我々は、記憶を「抽出」(ユーザが意図的にモデルにほぼ正確なコピーを生成させる)と、「修復」(モデルがユーザ意図に関係なくほぼ正確なコピーを生成する)と、「再構成」(モデルからほぼ正確なコピーを任意の方法で得ることができる)と区別する。
いくつかの結果が続く。
1) すべての学習が記憶であるとは限らない。
2) 記憶はモデルが訓練されたときに起こり, リハビリテーションはその原因ではない。
(3) トレーニングデータを記憶したモデルは、そのトレーニングデータのコピーであり、著作権によって使用される。
(4) モデルはVCRや他の汎用コピー技術とは似ていない。
(5) 記憶は「敵対的」ユーザが抽出に屈曲した現象ではなく、モデル自体に潜んでいる。
(6)モデルが記憶するトレーニングデータの量は、トレーニングにおける選択の結果である。
(7) 暗記したモデルが実際に再帰するか否かは、システム設計全体に依存する。
非常に現実的な意味では、記憶されたトレーニングデータはモデルの中にあります。
関連論文リスト
- Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:25:53Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文 参考訳(メタデータ) (2022-03-15T03:11:11Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Dataset Inference: Ownership Resolution in Machine Learning [18.248121977353506]
盗難モデルの訓練セットに含まれる知識は 全ての盗難コピーに共通しています
疑わしいモデルコピーが元のモデルのデータセットからプライベートな知識を持っているかどうかを識別するプロセスである$dataset$ $inferenceを紹介します。
CIFAR10、SVHN、CIFAR100、ImageNetの実験では、モデル所有者はモデル(または実際にデータセット)が盗まれたと99%以上の自信を持って主張できる。
論文 参考訳(メタデータ) (2021-04-21T18:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。