論文の概要: Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy
- arxiv url: http://arxiv.org/abs/2305.01550v1
- Date: Tue, 2 May 2023 15:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:47:59.287193
- Title: Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy
- Title(参考訳): 類似性学習政策による言語モデルの近似記憶の軽減
- Authors: Aly M. Kassem
- Abstract要約: 大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language models (LLMs) are trained on large amounts of data, which can
include sensitive information that may compromise personal privacy. LLMs showed
to memorize parts of the training data and emit those data verbatim when an
adversary prompts appropriately. Previous research has primarily focused on
data preprocessing and differential privacy techniques to address memorization
or prevent verbatim memorization exclusively, which can give a false sense of
privacy. However, these methods rely on explicit and implicit assumptions about
the structure of the data to be protected, which often results in an incomplete
solution to the problem. To address this, we propose a novel framework that
utilizes a reinforcement learning approach (PPO) to fine-tune LLMs to mitigate
approximate memorization. Our approach utilizes a negative similarity score,
such as BERTScore or SacreBLEU, as a reward signal to learn a dissimilarity
policy. Our results demonstrate that this framework effectively mitigates
approximate memorization while maintaining high levels of coherence and fluency
in the generated samples. Furthermore, our framework is robust in mitigating
approximate memorization across various circumstances, including longer
context, which is known to increase memorization in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は大量のデータに基づいてトレーニングされており、個人のプライバシーを侵害する可能性のある機密情報を含むことができる。
LLMはトレーニングデータの一部を記憶し、相手が適切にプロンプトした時にそのデータを冗長に出力することを示した。
これまでの研究は主に、データのプリプロセッシングと差分プライバシ技術に焦点を絞って、暗記に対処したり、口頭暗記を排他的に防止したりしてきた。
しかし、これらの方法は保護されるデータの構造に関する明示的かつ暗黙的な仮定に依存しているため、しばしば問題に対する不完全な解決策となる。
そこで本研究では,LLMを微調整し,近似記憶を緩和するための強化学習手法(PPO)を用いた新しいフレームワークを提案する。
提案手法では,BERTScore や SacreBLEU などの負の類似度スコアを報酬信号として利用し,相似性ポリシーを学習する。
その結果,このフレームワークは,生成したサンプルのコヒーレンスやフラレンシーを高く保ちながら,近似記憶を効果的に緩和できることがわかった。
さらに,LLMにおける記憶の増大が知られている長期的文脈を含む,様々な状況において,近似記憶の緩和に頑健である。
関連論文リスト
- Skewed Memorization in Large Language Models: Quantification and Decomposition [23.097554469918357]
LLM(Large Language Models)のメモリ化は、プライバシとセキュリティのリスクを引き起こす。
本稿では,教師付き微調整(SFT)の記憶について検討し,トレーニング期間,データセットサイズ,サンプル間類似度との関係について検討する。
論文 参考訳(メタデータ) (2025-02-03T09:23:53Z) - Undesirable Memorization in Large Language Models: A Survey [5.659933808910005]
大規模言語モデル(LLM)における記憶の話題に関する知識体系化(SoK)を提案する。
記憶とは、モデルがトレーニングデータからフレーズやフレーズを保存し、再生する傾向があることである。
本研究は,記憶現象に寄与する要因の解析に続き,記憶現象を測定するために用いられる指標と方法について議論する。
論文 参考訳(メタデータ) (2024-10-03T16:34:46Z) - Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。
LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。
動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T18:56:32Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。