Fugu-MT 論文翻訳(概要): Memorization for Good: Encryption with Autoregressive Language Models

論文の概要: Memorization for Good: Encryption with Autoregressive Language Models

arxiv url: http://arxiv.org/abs/2305.10445v1
Date: Mon, 15 May 2023 05:42:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 18:54:37.106640
Title: Memorization for Good: Encryption with Autoregressive Language Models
Title（参考訳）: 記憶: 自己回帰型言語モデルによる暗号化
Authors: Samuel Stevens and Yu Su
Abstract要約: 自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。自己回帰的LMは任意のデータをコンパクトな実世界のベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とグレディ復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
参考スコア（独自算出の注目度）: 5.492504126672887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over-parameterized neural language models (LMs) can memorize and recite long sequences of training data. While such memorization is normally associated with undesired properties such as overfitting and information leaking, our work casts memorization as an unexplored capability of LMs. We propose the first symmetric encryption algorithm with autoregressive language models (SELM). We show that autoregressive LMs can encode arbitrary data into a compact real-valued vector (i.e., encryption) and then losslessly decode the vector to the original message (i.e., decryption) via random subspace optimization and greedy decoding. While SELM is not amenable to conventional cryptanalysis, we investigate its security through a novel empirical variant of the classic IND-CPA (indistinguishability under chosen-plaintext attack) game. Our code and datasets are available at https://github.com/OSU-NLP-Group/SELM.
Abstract（参考訳）: over-parameterized neural language models (lms)は、トレーニングデータの長いシーケンスを記憶し、引用することができる。このような記憶は、通常、過剰フィッティングや情報漏洩といった望ましくない性質と関連付けられるが、本研究は、lmsの未検討の能力として記憶をキャストする。自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。自己回帰型LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号化)に無作為に復号できることを示す。 SELMは従来の暗号解析には適さないが,従来のIND-CPA(選択平文攻撃下での識別性)ゲームにおいて,その安全性を実証的に検証する。私たちのコードとデータセットはhttps://github.com/OSU-NLP-Group/SELMで公開されています。

関連論文リスト

HE-LRM: Encrypted Deep Learning Recommendation Models using Fully Homomorphic Encryption [3.0841649700901117]
FHE(Fully Homomorphic Encryption)は、データを暗号化するだけでなく、暗号化されたデータに直接計算を適用することができる暗号化方式である。本稿では,FHEを深層学習勧告モデル(DLRM)に適用する際の課題と機会について考察する。本研究では,FHE計算コストを低減し,基礎となるモデル性能を維持しつつ,圧縮埋込みルックアップを実行する新しい手法を開発した。
論文参考訳（メタデータ） (2025-06-22T19:40:04Z)
Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文参考訳（メタデータ） (2025-06-16T04:33:48Z)
Benchmarking Large Language Models for Cryptanalysis and Mismatched-Generalization [4.020376901658977]
大規模言語モデル(LLM)は、自然言語の理解と生成を変革した。データセキュリティと暗号化にとって重要な領域である暗号解析は、まだLLM評価において徹底的に研究されていない。我々は,様々な暗号アルゴリズムを用いて生成した暗号化テキストに対して,美術用LLMの暗号解析可能性を評価する。
論文参考訳（メタデータ） (2025-05-30T14:12:07Z)
Compile-Time Fully Homomorphic Encryption of Vectors: Eliminating Online Encryption via Algebraic Basis Synthesis [1.3824176915623292]
暗号文は、事前計算された暗号化ベースベクターとランタイムスケールの0の暗号化を組み合わせた構成である。ランダム化された$mathbbZ_t$-加群として定式化し、標準仮定の下でIND-CPAセキュリティを満たすことを証明した。ゼロのランダムな暗号のプールを必要とする以前の設計とは異なり、我々の構成は実行時に新しいスカラーによって乗算された1つのゼロ暗号文を用いて等価なセキュリティを実現する。
論文参考訳（メタデータ） (2025-05-19T00:05:18Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation [10.597643264309415]
TFHE (Homomorphic Encryption over the Torus) は、復号化せずにデータを暗号化する。マシンラーニングのプライバシ保護、セキュアなマルチパーティ計算、プライベートブロックチェーントランザクション、セキュアな医療診断といった可能性にもかかわらず、暗号化の複雑さとユーザビリティの問題により、その採用は制限されている。この研究は、TFHEコード生成の最初のベンチマークを確立し、ドメイン固有のフィードバックで拡張されたLLMが、FHEコード生成の専門的ギャップを埋める方法を示している。
論文参考訳（メタデータ） (2025-03-15T17:57:44Z)
Cryptanalysis via Machine Learning Based Information Theoretic Metrics [58.96805474751668]
本稿では,機械学習アルゴリズムの新たな2つの応用法を提案する。これらのアルゴリズムは、監査設定で容易に適用でき、暗号システムの堅牢性を評価することができる。本稿では,DES,RSA,AES ECBなど,IND-CPAの安全でない暗号化スキームを高精度に識別する。
論文参考訳（メタデータ） (2025-01-25T04:53:36Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
CodeCipher: Learning to Obfuscate Source Code Against LLMs [5.872773591957006]
我々は,LLMからの応答を保存しながら,コードからプライバシを乱す新しい方法であるCodeCipherを提案する。 CodeCipher は LLM の埋め込み行列を変換し、各行が元の行列内の別の単語に対応するようにし、難読化ソースコードのためのトークンとトークンの混同マッピングを生成する。その結果,LLMの性能を保ちながらソースコードのプライバシを混乱させることに成功した。
論文参考訳（メタデータ） (2024-10-08T08:28:54Z)
Encryption-Friendly LLM Architecture [11.386436468650016]
ホモモルフィック暗号(homomorphic encryption, HE)は、暗号状態における算術演算をサポートする暗号プロトコルである。本稿では,パーソナライズされた(プライベートな)微調整による推論を重視した改良型HE-Friendly Transformerアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-03T13:48:35Z)
Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。 LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文参考訳（メタデータ） (2024-09-20T18:56:32Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文参考訳（メタデータ） (2024-04-23T15:49:37Z)
Robust Representation Learning for Privacy-Preserving Machine Learning: A Multi-Objective Autoencoder Approach [0.9831489366502302]
プライバシー保護機械学習(ppML)のための堅牢な表現学習フレームワークを提案する。提案手法は,多目的方式でオートエンコーダを訓練することを中心に,符号化部からの潜伏と学習の特徴を符号化形式として結合する。提案したフレームワークでは、元のフォームを公開せずに、データを共有し、サードパーティツールを使用することができます。
論文参考訳（メタデータ） (2023-09-08T16:41:25Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。 RM符号は制限されたレートのみを許容する。効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文参考訳（メタデータ） (2023-01-16T04:11:14Z)
Effect of Homomorphic Encryption on the Performance of Training Federated Learning Generative Adversarial Networks [10.030986278376567]
GAN(Generative Adversarial Network)は、機械学習(ML)分野におけるディープラーニング生成モデルである。医学などの特定の分野において、トレーニングデータは、異なる病院にまたがって保存される病院患者の記録である可能性がある。本稿では,3種類のホモモルフィック暗号を用いたFL-GANの学習性能の低下に着目した。
論文参考訳（メタデータ） (2022-07-01T08:35:10Z)
Cryptotree: fast and accurate predictions on encrypted structured data [0.0]
ホモモルフィック暗号化(HE)は、入力と出力の両方が暗号化される暗号化データ上での計算を可能にする能力で認められている。線形回帰と比較して非常に強力な学習手法であるランダムフォレスト(RF)の利用を可能にするフレームワークであるCryptotreeを提案する。
論文参考訳（メタデータ） (2020-06-15T11:48:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。