論文の概要: Scaling up Privacy-Preserving ML: A CKKS Implementation of Llama-2-7B
- arxiv url: http://arxiv.org/abs/2601.18511v1
- Date: Mon, 26 Jan 2026 14:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.86043
- Title: Scaling up Privacy-Preserving ML: A CKKS Implementation of Llama-2-7B
- Title(参考訳): プライバシ保護MLのスケールアップ - Llama-2-7BのCKKS実装
- Authors: Jaiyoung Park, Sejin Park, Jai Hyun Park, Jung Ho Ahn, Jung Hee Cheon, Guillaume Hanrot, Jung Woo Kim, Minje Park, Damien Stehlé,
- Abstract要約: 非対話型秘密言語モデル(LLM)を提供するための主要な解決策として、同型暗号化(FHE)が登場した
本稿では,FHE ベースのプライベート LLM 推論ソリューションを提案する。
最大4096個の入力トークンに対して,CKKSに基づくLlama-2-7Bプライベート推論のエンドツーエンド実装について述べる。
- 参考スコア(独自算出の注目度): 20.74505614207065
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) become ubiquitous, privacy concerns pertaining to inference inputs keep growing. In this context, fully homomorphic encryption (FHE) has emerged as a primary cryptographic solution to provide non-interactive confidential LLM inference. Existing solutions scale poorly with the input token length, and hence focus either on small models or larger models with a small number of input tokens. They also suffer from the existence of large outlier values. These values have a strong impact on the evaluation of non-linear layers, leading to large-degree polynomial approximation and thus heavy evaluation costs. We propose an FHE-based private LLM inference solution that allows thousands of input tokens with only a part of them being encrypted: this fits with a scenario where the context is benign and only part of the input is sensitive. To do so, we suggest an unbalanced chunked prefill framework that processes the private and public parts of the input tokens differently. Our framework contains plaintext-plaintext, plaintext-ciphertext and ciphertext-ciphertext computational components. We adopt different strategies and ingredients for each component. We also devise new homomorphic algorithms for specific matrix multiplication and polynomial evaluation tasks encountered during LLM inference. Furthermore, without retraining, we tailor the LLM inference algorithm to reduce the ranges of outlier values: we leverage machine learning strategies (token prepending and rotations) to mitigate the impact of the outliers on non-linear layers. Based on these ingredients, we describe a CKKS-based end-to-end implementation of Llama-2-7B private inference for up to 4096 input tokens, of which the last 128 are encrypted. On a cluster of 8~NVIDIA RTX-4090 GPUs, inference takes 85s for summarization and 33s for generation per output token.
- Abstract(参考訳): 大規模言語モデル(LLM)がユビキタス化するにつれ、推論入力に関するプライバシー上の懸念が高まっている。
この文脈において、完全同型暗号化(FHE)は、非対話型秘密LLM推論を提供する主要な暗号化ソリューションとして登場した。
既存のソリューションは入力トークン長が低いため、小さなモデルか少数の入力トークンを持つより大きなモデルにフォーカスする。
それらはまた、大きな外れ値の存在に悩まされる。
これらの値は非線形層の評価に強く影響し、大次多項式近似と高い評価コストをもたらす。
我々は、FHEベースのプライベートLSM推論ソリューションを提案し、その一部だけが暗号化された数千の入力トークンを許可する:これは、コンテキストが良性で入力の一部だけが敏感なシナリオに適合する。
そのために、入力トークンのプライベートおよびパブリック部分を異なる方法で処理するアンバランスなチャンクプリフィルフレームワークを提案する。
本フレームワークは,平文-平文,平文-暗号文,暗号文-暗号文計算コンポーネントを含む。
私たちは各コンポーネントに異なる戦略と材料を採用しています。
また, LLM推論中に発生する行列乗算や多項式評価タスクに対して, 新たな同型アルゴリズムを考案した。
さらに、リトレーニングなしでは、LLM推論アルゴリズムを調整して、アウトリーチ値の範囲を減らし、機械学習戦略(トケンプレッディングとローテーション)を活用して、非線形層に対するアウトリーチの影響を軽減する。
これらの特徴に基づき,最大4096個の入力トークンに対して,CKKSをベースとしたLlama-2-7Bプライベート推論のエンドツーエンド実装について述べる。
8~NVIDIA RTX-4090 GPUのクラスタでは、要約には85秒、出力トークン毎に生成には33秒を要する。
関連論文リスト
- Efficient Decoding Methods for Language Models on Encrypted Data [32.58944595512403]
ホモモルフィック暗号化(HE)は、セキュアな推論のために暗号化されたデータの計算を可能にする。
ニューラルテキスト生成にはargmaxやサンプリングのような復号法が必要である。
我々は,従来の手法に比べて暗号操作を減らし,実用的なグリージー復号を可能にする,HEフレンドリーなargmaxアルゴリズムであるCutmaxを導入する。
論文 参考訳(メタデータ) (2025-09-10T08:23:14Z) - DP-Fusion: Token-Level Differentially Private Inference for Large Language Models [51.71591819896191]
大規模言語モデル(LLM)は、推論時にプライバシを保存しない。
DP-Fusion は LLM の出力にコンテキスト内のトークンの集合が持つ影響を証明的に束縛する。
提案手法は, 理論的および実証的プライバシを大幅に改善した, 証明可能な民営化文書を作成する。
論文 参考訳(メタデータ) (2025-07-06T20:49:39Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - CipherPrune: Efficient and Scalable Private Transformer Inference [12.853162687405465]
暗号化プロトコルを使用したプライベートトランスフォーマー推論は、プライバシ保護機械学習のための有望なソリューションを提供する。
しかしながら、実行時のオーバーヘッド(効率上の問題)と、長時間の入力を処理する上での課題に依然として直面している。
我々は、効率的でスケーラブルなプライベート推論フレームワークであるcipheritCipherPruneを提案する。
論文 参考訳(メタデータ) (2025-02-24T02:27:54Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。
我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文 参考訳(メタデータ) (2024-07-25T16:13:58Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Memorization for Good: Encryption with Autoregressive Language Models [8.645826579841692]
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。
自己回帰的LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
論文 参考訳(メタデータ) (2023-05-15T05:42:34Z) - Post-Quantum Cryptography(PQC): Generalized ElGamal Cipher over GL(8,F251) [0.0]
ポスト量子暗号(PQC)は、攻撃に耐性のある暗号プロトコルを見つけようとする。
本稿では、一般化されたElGamal非軌道化プロトコルに基づく非対称暗号に焦点をあてる。
論文 参考訳(メタデータ) (2017-02-12T22:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。