論文の概要: Measuring Non-Adversarial Reproduction of Training Data in Large Language Models
- arxiv url: http://arxiv.org/abs/2411.10242v1
- Date: Fri, 15 Nov 2024 14:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:19.790890
- Title: Measuring Non-Adversarial Reproduction of Training Data in Large Language Models
- Title(参考訳): 大規模言語モデルにおける訓練データの非逆転再現の測定
- Authors: Michael Aerni, Javier Rando, Edoardo Debenedetti, Nicholas Carlini, Daphne Ippolito, Florian Tramèr,
- Abstract要約: 自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なりを定量化する。
一般的な会話言語モデルによるテキスト出力の最大15%は、インターネットのスニペットと重なることが判明した。
適切なプロンプトは、平均して非敵の再現を減少させるが、トレーニングデータの最悪の再現を緩和するには、より強力な防御が必要である。
- 参考スコア(独自算出の注目度): 71.55350441396243
- License:
- Abstract: Large language models memorize parts of their training data. Memorizing short snippets and facts is required to answer questions about the world and to be fluent in any language. But models have also been shown to reproduce long verbatim sequences of memorized text when prompted by a motivated adversary. In this work, we investigate an intermediate regime of memorization that we call non-adversarial reproduction, where we quantify the overlap between model responses and pretraining data when responding to natural and benign prompts. For a variety of innocuous prompt categories (e.g., writing a letter or a tutorial), we show that up to 15% of the text output by popular conversational language models overlaps with snippets from the Internet. In worst cases, we find generations where 100% of the content can be found exactly online. For the same tasks, we find that human-written text has far less overlap with Internet data. We further study whether prompting strategies can close this reproduction gap between models and humans. While appropriate prompting can reduce non-adversarial reproduction on average, we find that mitigating worst-case reproduction of training data requires stronger defenses -- even for benign interactions.
- Abstract(参考訳): 大規模な言語モデルは、トレーニングデータの一部を記憶します。
短いスニペットと事実を記憶するには、世界に関する質問に答え、あらゆる言語に精通する必要がある。
しかし、モデルはまた、モチベーションのある敵に促されたとき、記憶されたテキストの長い動詞のシーケンスを再現することが示されている。
本研究では,自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なり合いを定量化する,非逆転再生と呼ばれる中間的記憶状態について検討する。
様々な無害なプロンプトカテゴリ(例えば、手紙やチュートリアルを書くなど)に対して、一般的な会話言語モデルによって出力されるテキストの最大15%は、インターネットのスニペットと重なることを示す。
最悪のケースでは、コンテンツの100%をオンラインで正確に見つけることができる世代を見つけます。
同じタスクでは、人書きのテキストがインターネットデータとの重複がはるかに少ないことが分かりました。
さらに、モデルと人間の再生ギャップを埋める戦略が提案されるかどうかについても検討する。
適切なプロンプトは、平均して非敵の再現を減らすことができるが、トレーニングデータの最悪の再現を緩和するには、良心的な相互作用であっても、より強力な防御が必要です。
関連論文リスト
- Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文 参考訳(メタデータ) (2022-03-15T03:11:11Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。