論文の概要: Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy
- arxiv url: http://arxiv.org/abs/2210.17546v1
- Date: Mon, 31 Oct 2022 17:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:31:07.562572
- Title: Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy
- Title(参考訳): 言語モデルにおける口頭暗記の防止はプライバシーの誤った感覚をもたらす
- Authors: Daphne Ippolito, Florian Tram\`er, Milad Nasr, Chiyuan Zhang, Matthew
Jagielski, Katherine Lee, Christopher A. Choquette-Choo, Nicholas Carlini
- Abstract要約: 我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には,Bloomフィルタに基づく効率的なディフェンスを設計し,実装し,全ての動詞の暗記を完全に防止する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
- 参考スコア(独自算出の注目度): 65.83962022161398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studying data memorization in neural language models helps us understand the
risks (e.g., to privacy or copyright) associated with models regurgitating
training data, and aids in the evaluation of potential countermeasures. Many
prior works -- and some recently deployed defenses -- focus on "verbatim
memorization", defined as a model generation that exactly matches a substring
from the training set. We argue that verbatim memorization definitions are too
restrictive and fail to capture more subtle forms of memorization.
Specifically, we design and implement an efficient defense based on Bloom
filters that perfectly prevents all verbatim memorization. And yet, we
demonstrate that this "perfect" filter does not prevent the leakage of training
data. Indeed, it is easily circumvented by plausible and minimally modified
"style-transfer" prompts -- and in some cases even the non-modified original
prompts -- to extract memorized information. For example, instructing the model
to output ALL-CAPITAL texts bypasses memorization checks based on verbatim
matching. We conclude by discussing potential alternative definitions and why
defining memorization is a difficult yet crucial open question for neural
language models.
- Abstract(参考訳): ニューラルネットワークモデルにおけるデータ記憶の研究は、トレーニングデータを取得するモデルに関連するリスク(プライバシーや著作権など)を理解し、潜在的な対策の評価を支援する。
トレーニングセットのサブストリングと正確に一致するモデル生成として定義される、多くの先行作業と最近展開されたディフェンスは、"verbatim memorization"にフォーカスしている。
我々は、動詞の暗記定義があまりに制限的であり、より微妙な暗記形式を捉えることができないと主張している。
具体的には、ブルームフィルタに基づく効率的な防御を設計・実装し、すべての暗記を完璧に防止する。
しかし,この「完璧な」フィルタは,トレーニングデータの漏洩を防止できないことを示す。
実際、それはプラウシブルで最小限に修正された「スタイル・トランスファー」プロンプトによって容易に回避され、場合によっては修正されていないオリジナルのプロンプトでさえも記憶された情報を抽出する。
例えば、all-CAPITALテキストを出力するようにモデルに指示すると、冗長マッチングに基づいて暗記チェックをバイパスする。
最後に、潜在的な代替定義と記憶の定義が、ニューラルネットワークモデルにとって難しいが決定的なオープン問題である理由について論じる。
関連論文リスト
- Measuring Non-Adversarial Reproduction of Training Data in Large Language Models [71.55350441396243]
自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なりを定量化する。
一般的な会話言語モデルによるテキスト出力の最大15%は、インターネットのスニペットと重なることが判明した。
適切なプロンプトは、平均して非敵の再現を減少させるが、トレーニングデータの最悪の再現を緩和するには、より強力な防御が必要である。
論文 参考訳(メタデータ) (2024-11-15T14:55:01Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models [7.50189359952191]
本研究は,初対面後に記憶されないシーケンスをトレーニング中に「発見」できることを示す。
潜在記憶の存在は、記憶されたシーケンスがモデルの最終的なチェックポイントに隠される可能性があるため、データのプライバシの課題となる。
我々は,クロスエントロピー損失を利用した診断試験を開発し,高い精度で潜時記憶配列を明らかにする。
論文 参考訳(メタデータ) (2024-06-20T17:56:17Z) - SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:25:53Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。