論文の概要: The Files are in the Computer: Copyright, Memorization, and Generative AI
- arxiv url: http://arxiv.org/abs/2404.12590v1
- Date: Fri, 19 Apr 2024 02:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:24:58.664392
- Title: The Files are in the Computer: Copyright, Memorization, and Generative AI
- Title(参考訳): ファイルはコンピュータにある:著作権、記憶、生成AI
- Authors: A. Feder Cooper, James Grimmelmann,
- Abstract要約: 生成AI企業に対する著作権訴訟の中心的な問題は、生成AIモデルがトレーニングしたデータを「記憶」する程度である。
このエッセイでは,記憶に関する会話に明瞭さをもたらすことを試みる。
- 参考スコア(独自算出の注目度): 2.1178416840822027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central issue in copyright lawsuits against generative-AI companies is the degree to which a generative-AI model does or does not "memorize" the data it was trained on. Unfortunately, the debate has been clouded by ambiguity over what "memorization" is, leading to legal debates in which participants often talk past one another. In this essay, we attempt to bring clarity to the conversation over memorization.
- Abstract(参考訳): 生成AI企業に対する著作権訴訟の中心的な問題は、生成AIモデルがトレーニングしたデータを「記憶」する程度である。
残念なことに、この議論は「記憶」とは何かという曖昧さによって覆され、参加者が互いに話をする法的な議論に繋がった。
このエッセイでは,記憶に関する会話に明瞭さをもたらすことを試みる。
関連論文リスト
- Measuring Non-Adversarial Reproduction of Training Data in Large Language Models [71.55350441396243]
自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なりを定量化する。
一般的な会話言語モデルによるテキスト出力の最大15%は、インターネットのスニペットと重なることが判明した。
適切なプロンプトは、平均して非敵の再現を減少させるが、トレーニングデータの最悪の再現を緩和するには、より強力な防御が必要である。
論文 参考訳(メタデータ) (2024-11-15T14:55:01Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:25:53Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文 参考訳(メタデータ) (2022-03-15T03:11:11Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Dataset Inference: Ownership Resolution in Machine Learning [18.248121977353506]
盗難モデルの訓練セットに含まれる知識は 全ての盗難コピーに共通しています
疑わしいモデルコピーが元のモデルのデータセットからプライベートな知識を持っているかどうかを識別するプロセスである$dataset$ $inferenceを紹介します。
CIFAR10、SVHN、CIFAR100、ImageNetの実験では、モデル所有者はモデル(または実際にデータセット)が盗まれたと99%以上の自信を持って主張できる。
論文 参考訳(メタデータ) (2021-04-21T18:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。