Fugu-MT 論文翻訳(概要): The Files are in the Computer: Copyright, Memorization, and Generative-AI Systems

論文の概要: The Files are in the Computer: Copyright, Memorization, and Generative-AI Systems

arxiv url: http://arxiv.org/abs/2404.12590v2
Date: Tue, 2 Jul 2024 13:58:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 07:19:16.660182
Title: The Files are in the Computer: Copyright, Memorization, and Generative-AI Systems
Title（参考訳）: ファイルはコンピュータにある:著作権、記憶、生成AIシステム
Authors: A. Feder Cooper, James Grimmelmann,
Abstract要約: 生成AIシステムを開発する企業に対する著作権訴訟の中心的な問題は、生成AIモデルがトレーニングしたデータを「記憶」する程度である。このエッセイでは、暗記に関する会話と、米国著作権法で認識されるコピーとの関係を明確にしようとする。
参考スコア（独自算出の注目度）: 2.1178416840822027
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A central issue in copyright lawsuits against companies that produce generative-AI systems is the degree to which a generative-AI model does or does not "memorize" the data it was trained on. Unfortunately, the debate has been clouded by ambiguity over what "memorization" is, leading to legal debates in which participants often talk past one another. In this Essay, we attempt to bring clarity to the conversation over memorization and its relationship to copying that is cognizable by U.S. copyright law.
Abstract（参考訳）: 生成AIシステムを開発する企業に対する著作権訴訟の中心的な問題は、生成AIモデルがトレーニングしたデータを「記憶」する程度である。残念なことに、この議論は「記憶」とは何かという曖昧さによって覆され、参加者が互いに話をする法的な議論に繋がった。このエッセイでは、暗記に関する会話と、米国著作権法で認識されるコピーとの関係を明確にしようとする。

関連論文リスト

Measuring Non-Adversarial Reproduction of Training Data in Large Language Models [71.55350441396243]
自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なりを定量化する。一般的な会話言語モデルによるテキスト出力の最大15%は、インターネットのスニペットと重なることが判明した。適切なプロンプトは、平均して非敵の再現を減少させるが、トレーニングデータの最悪の再現を緩和するには、より強力な防御が必要である。
論文参考訳（メタデータ） (2024-11-15T14:55:01Z)
Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文参考訳（メタデータ） (2024-04-23T15:49:37Z)
SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。 LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文参考訳（メタデータ） (2023-10-24T14:25:53Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)
Preventing Verbatim Memorization in Language Models Gives a False Sense of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文参考訳（メタデータ） (2022-10-31T17:57:55Z)
Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文参考訳（メタデータ） (2022-05-22T07:43:50Z)
Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文参考訳（メタデータ） (2022-03-15T03:11:11Z)
Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文参考訳（メタデータ） (2022-02-15T18:48:31Z)
Defending against Model Stealing via Verifying Embedded External Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文参考訳（メタデータ） (2021-12-07T03:51:54Z)
Dataset Inference: Ownership Resolution in Machine Learning [18.248121977353506]
盗難モデルの訓練セットに含まれる知識は全ての盗難コピーに共通しています疑わしいモデルコピーが元のモデルのデータセットからプライベートな知識を持っているかどうかを識別するプロセスである$dataset$ $inferenceを紹介します。 CIFAR10、SVHN、CIFAR100、ImageNetの実験では、モデル所有者はモデル(または実際にデータセット)が盗まれたと99%以上の自信を持って主張できる。
論文参考訳（メタデータ） (2021-04-21T18:12:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。