論文の概要: Extracting books from production language models
- arxiv url: http://arxiv.org/abs/2601.02671v1
- Date: Tue, 06 Jan 2026 03:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.781662
- Title: Extracting books from production language models
- Title(参考訳): 生産言語モデルから書籍を抽出する
- Authors: Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo, Percy Liang,
- Abstract要約: 同様の抽出がLLMの生産に可能であるかどうかについては、未解決のままである。
ジェイルブレイクされたクロード3.7 ソンネットは、全書籍をほぼ全文出力する場合もある。
モデルおよびシステムレベルのセーフガードであっても、(コピーライト内での)トレーニングデータの抽出はLLM生産のリスクである。
- 参考スコア(独自算出の注目度): 65.85348210518937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many unresolved legal questions over LLMs and copyright center on memorization: whether specific training data have been encoded in the model's weights during training, and whether those memorized data can be extracted in the model's outputs. While many believe that LLMs do not memorize much of their training data, recent work shows that substantial amounts of copyrighted text can be extracted from open-weight models. However, it remains an open question if similar extraction is feasible for production LLMs, given the safety measures these systems implement. We investigate this question using a two-phase procedure: (1) an initial probe to test for extraction feasibility, which sometimes uses a Best-of-N (BoN) jailbreak, followed by (2) iterative continuation prompts to attempt to extract the book. We evaluate our procedure on four production LLMs -- Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, and Grok 3 -- and we measure extraction success with a score computed from a block-based approximation of longest common substring (nv-recall). With different per-LLM experimental configurations, we were able to extract varying amounts of text. For the Phase 1 probe, it was unnecessary to jailbreak Gemini 2.5 Pro and Grok 3 to extract text (e.g, nv-recall of 76.8% and 70.3%, respectively, for Harry Potter and the Sorcerer's Stone), while it was necessary for Claude 3.7 Sonnet and GPT-4.1. In some cases, jailbroken Claude 3.7 Sonnet outputs entire books near-verbatim (e.g., nv-recall=95.8%). GPT-4.1 requires significantly more BoN attempts (e.g., 20X), and eventually refuses to continue (e.g., nv-recall=4.0%). Taken together, our work highlights that, even with model- and system-level safeguards, extraction of (in-copyright) training data remains a risk for production LLMs.
- Abstract(参考訳): LLMと著作権に関する多くの未解決の法的疑問は、トレーニング中に特定のトレーニングデータがモデルの重みにエンコードされているかどうか、そしてそれらの記憶されたデータはモデルの出力で抽出できるかどうかである。
LLMはトレーニングデータのほとんどを記憶していないと多くの人が考えているが、最近の研究は、オープンウェイトモデルからかなりの量の著作権付きテキストを抽出できることを示している。
しかし、これらのシステムが実装する安全対策を考えると、同様の抽出が生産用LLMで実現可能かどうかについては未解決のままである。
本研究は,(1)Best-of-N(BoN)ジェイルブレイクを用いて本本を抽出しようとする反復的継続プロンプトを用いて,抽出可能性テストのための初期プローブを試作する2段階の手順を用いて検討する。
我々は,4つのLLM (Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, Grok 3) の手順を評価し,最も長い共通サブストリング(nv-recall)のブロックベース近似を用いて抽出成功度を測定した。
LLM毎の実験構成が異なるため、さまざまなテキストを抽出することができた。
フェーズ1のプローブでは、ジェミニ2.5 ProとGrok 3を脱獄させる必要がなく(例えば、ハリー・ポッターとSorcerer's Stoneのnv-recallは76.8%と70.3%)、クロード3.7 SonnetとGPT-4.1が必要だった。
ジェイルブレイクされたClaude 3.7 Sonnetは、全書籍をほぼバーバティム(eg , nv-recall=95.8%)に出力する。
GPT-4.1 では BoN の試行(例: 20X)が大幅に増加し、最終的には継続を拒否する(例: nv-recall=4.0%)。
私たちの研究は、モデルとシステムレベルのセーフガードであっても、(コピーライト内での)トレーニングデータの抽出がLLM生産のリスクであることを強調しています。
関連論文リスト
- Prompt-Based One-Shot Exact Length-Controlled Generation with LLMs [56.47577824219207]
本稿では,既製の大規模言語モデルを補完して,希望するトークン数を正確に生成するプロンプトベースの戦略を提案する。
プロンプトはカウントダウンマーカーと明示的なカウントルールを付加し、モデルが"カウント中に書き込む"。
MT-Bench-LI では、GPT-4.1 の厳格な長さコンプライアンスは、単純なプロンプトの30%以下から、カウントダウンプロンプトの95%以上へと飛躍する。
論文 参考訳(メタデータ) (2025-08-19T13:12:01Z) - Extracting memorized pieces of (copyrighted) books from open-weight language models [63.06081428612624]
我々は、生成的AIに対する著作権訴訟における原告と被告が、大規模な言語モデル(LLM)が原告の保護された表現を記憶している範囲について、その主張に反対することが多いことを示している。
これらの偏極的な立場は、記憶と著作権の関係を劇的に単純化することを示します。
我々は、我々の結果が著作権訴訟に重大な影響を及ぼす理由について議論する。
論文 参考訳(メタデータ) (2025-05-18T21:06:32Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。
73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。
大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文 参考訳(メタデータ) (2024-09-18T23:59:32Z) - PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。
Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。
PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文 参考訳(メタデータ) (2024-05-13T17:08:42Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。