論文の概要: Extracting memorized pieces of (copyrighted) books from open-weight language models
- arxiv url: http://arxiv.org/abs/2505.12546v1
- Date: Sun, 18 May 2025 21:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.299981
- Title: Extracting memorized pieces of (copyrighted) books from open-weight language models
- Title(参考訳): オープンウェイト言語モデルから記憶された(コピーライトされた)本を抽出する
- Authors: A. Feder Cooper, Aaron Gokaslan, Amy B. Cyphert, Christopher De Sa, Mark A. Lemley, Daniel E. Ho, Percy Liang,
- Abstract要約: 我々は,敵対的MLと著作権法が記憶と著作権の関係を単純化していることを示す。
異なる大規模言語モデルから少なくともいくつかの書籍のかなりの部分を抽出することは可能であることを示す。
我々は、我々の結果が著作権訴訟に重大な影響を及ぼす理由について議論する。
- 参考スコア(独自算出の注目度): 67.13416461928398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Plaintiffs and defendants in copyright lawsuits over generative AI often make sweeping, opposing claims about the extent to which large language models (LLMs) have memorized plaintiffs' protected expression. Drawing on adversarial ML and copyright law, we show that these polarized positions dramatically oversimplify the relationship between memorization and copyright. To do so, we leverage a recent probabilistic extraction technique to extract pieces of the Books3 dataset from 13 open-weight LLMs. Through numerous experiments, we show that it's possible to extract substantial parts of at least some books from different LLMs. This is evidence that the LLMs have memorized the extracted text; this memorized content is copied inside the model parameters. But the results are complicated: the extent of memorization varies both by model and by book. With our specific experiments, we find that the largest LLMs don't memorize most books -- either in whole or in part. However, we also find that Llama 3.1 70B memorizes some books, like Harry Potter and 1984, almost entirely. We discuss why our results have significant implications for copyright cases, though not ones that unambiguously favor either side.
- Abstract(参考訳): 生成的AIに対する著作権訴訟における原告や被告は、大規模な言語モデル(LLM)が原告の保護された表現を記憶している範囲について、徹底的に主張することが多い。
敵対的MLと著作権法に基づいて、これらの偏極的な位置が記憶と著作権の関係を劇的に単純化していることを示す。
そこで本研究では,最近の確率的抽出手法を利用して,13個のオープンウェイトLCMからブックス3データセットの断片を抽出する。
多くの実験を通して、異なるLLMから少なくともいくつかの書籍のかなりの部分を抽出できることが示されている。
これはLLMが抽出したテキストを記憶した証拠であり、この記憶された内容はモデルパラメータ内にコピーされる。
しかし、結果は複雑で、暗記の程度はモデルと本によって異なる。
具体的な実験で、最大のLLMは、ほとんどの本を -- 全体的にも部分的にも -- 記憶していないことが分かりました。
しかし、Llama 3.1 70Bはハリー・ポッターや1984などいくつかの本を記憶している。
我々は、我々の結果が著作権訴訟に重大な影響を及ぼす理由について議論する。
関連論文リスト
- Memorization: A Close Look at Books [5.423163868410005]
Llama 370Bのモデルを使って、最初の500個のトークンから1冊の本を自動で再構築しました。
本書の抽出率は本の人気と相関し,学習データに重複する可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-17T00:20:18Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。
LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文 参考訳(メタデータ) (2024-06-22T03:32:09Z) - Evaluating LLMs for Quotation Attribution in Literary Texts: A Case Study of LLaMa3 [11.259583037191772]
小説における直接音声の発声におけるLlama-3の有効性について検討した。
LLMは28の小説のコーパスで印象的な結果を示し、ChatGPTとエンコーダベースのベースラインを大きなマージンで上回った。
論文 参考訳(メタデータ) (2024-06-17T09:56:46Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Copyright Traps for Large Language Models [6.902279764206365]
我々は著作権トラップを用いて,大規模言語モデルにおける著作権コンテンツの使用を検出することを提案する。
1.3Bモデルをスクラッチからトレーニングし、オリジナルコンテンツ(ブック)にトラップを挿入します。
直観とは裏腹に,従来の手法では,中長のトラップ文の繰り返し(100)が検出できないことが示されている。
論文 参考訳(メタデータ) (2024-02-14T18:09:53Z) - SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。