論文の概要: Memorization for Good: Encryption with Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2305.10445v1
- Date: Mon, 15 May 2023 05:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 18:54:37.106640
- Title: Memorization for Good: Encryption with Autoregressive Language Models
- Title(参考訳): 記憶: 自己回帰型言語モデルによる暗号化
- Authors: Samuel Stevens and Yu Su
- Abstract要約: 自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。
自己回帰的LMは任意のデータをコンパクトな実世界のベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とグレディ復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
- 参考スコア(独自算出の注目度): 5.492504126672887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over-parameterized neural language models (LMs) can memorize and recite long
sequences of training data. While such memorization is normally associated with
undesired properties such as overfitting and information leaking, our work
casts memorization as an unexplored capability of LMs. We propose the first
symmetric encryption algorithm with autoregressive language models (SELM). We
show that autoregressive LMs can encode arbitrary data into a compact
real-valued vector (i.e., encryption) and then losslessly decode the vector to
the original message (i.e., decryption) via random subspace optimization and
greedy decoding. While SELM is not amenable to conventional cryptanalysis, we
investigate its security through a novel empirical variant of the classic
IND-CPA (indistinguishability under chosen-plaintext attack) game. Our code and
datasets are available at https://github.com/OSU-NLP-Group/SELM.
- Abstract(参考訳): over-parameterized neural language models (lms)は、トレーニングデータの長いシーケンスを記憶し、引用することができる。
このような記憶は、通常、過剰フィッティングや情報漏洩といった望ましくない性質と関連付けられるが、本研究は、lmsの未検討の能力として記憶をキャストする。
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。
自己回帰型LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号化)に無作為に復号できることを示す。
SELMは従来の暗号解析には適さないが,従来のIND-CPA(選択平文攻撃下での識別性)ゲームにおいて,その安全性を実証的に検証する。
私たちのコードとデータセットはhttps://github.com/OSU-NLP-Group/SELMで公開されています。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - CodeCipher: Learning to Obfuscate Source Code Against LLMs [5.872773591957006]
我々は,LLMからの応答を保存しながら,コードからプライバシを乱す新しい方法であるCodeCipherを提案する。
CodeCipher は LLM の埋め込み行列を変換し、各行が元の行列内の別の単語に対応するようにし、難読化ソースコードのためのトークンとトークンの混同マッピングを生成する。
その結果,LLMの性能を保ちながらソースコードのプライバシを混乱させることに成功した。
論文 参考訳(メタデータ) (2024-10-08T08:28:54Z) - Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。
LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。
動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T18:56:32Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Robust Representation Learning for Privacy-Preserving Machine Learning:
A Multi-Objective Autoencoder Approach [0.9831489366502302]
プライバシー保護機械学習(ppML)のための堅牢な表現学習フレームワークを提案する。
提案手法は,多目的方式でオートエンコーダを訓練することを中心に,符号化部からの潜伏と学習の特徴を符号化形式として結合する。
提案したフレームワークでは、元のフォームを公開せずに、データを共有し、サードパーティツールを使用することができます。
論文 参考訳(メタデータ) (2023-09-08T16:41:25Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - Effect of Homomorphic Encryption on the Performance of Training
Federated Learning Generative Adversarial Networks [10.030986278376567]
GAN(Generative Adversarial Network)は、機械学習(ML)分野におけるディープラーニング生成モデルである。
医学などの特定の分野において、トレーニングデータは、異なる病院にまたがって保存される病院患者の記録である可能性がある。
本稿では,3種類のホモモルフィック暗号を用いたFL-GANの学習性能の低下に着目した。
論文 参考訳(メタデータ) (2022-07-01T08:35:10Z) - Cryptotree: fast and accurate predictions on encrypted structured data [0.0]
ホモモルフィック暗号化(HE)は、入力と出力の両方が暗号化される暗号化データ上での計算を可能にする能力で認められている。
線形回帰と比較して非常に強力な学習手法であるランダムフォレスト(RF)の利用を可能にするフレームワークであるCryptotreeを提案する。
論文 参考訳(メタデータ) (2020-06-15T11:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。