論文の概要: NOIR: Privacy-Preserving Generation of Code with Open-Source LLMs
- arxiv url: http://arxiv.org/abs/2601.16354v1
- Date: Thu, 22 Jan 2026 22:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.424331
- Title: NOIR: Privacy-Preserving Generation of Code with Open-Source LLMs
- Title(参考訳): NOIR: オープンソースLLMによるコード生成のプライバシ保護
- Authors: Khoa Nguyen, Khiem Ton, NhatHai Phan, Issa Khalil, Khang Tran, Cristian Borcea, Ruoming Jin, Abdallah Khreishah, My T. Thai,
- Abstract要約: NOIRはクライアントのプロンプトと生成されたコードをクラウドから保護するフレームワークである。
識別不能性、トークン埋め込みレベルでのローカルな差分プライバシー保護、クライアント側のデータ非依存でランダムなトークン化機能を実現している。
- 参考スコア(独自算出の注目度): 19.174737939152845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although boosting software development performance, large language model (LLM)-powered code generation introduces intellectual property and data security risks rooted in the fact that a service provider (cloud) observes a client's prompts and generated code, which can be proprietary in commercial systems. To mitigate this problem, we propose NOIR, the first framework to protect the client's prompts and generated code from the cloud. NOIR uses an encoder and a decoder at the client to encode and send the prompts' embeddings to the cloud to get enriched embeddings from the LLM, which are then decoded to generate the code locally at the client. Since the cloud can use the embeddings to infer the prompt and the generated code, NOIR introduces a new mechanism to achieve indistinguishability, a local differential privacy protection at the token embedding level, in the vocabulary used in the prompts and code, and a data-independent and randomized tokenizer on the client side. These components effectively defend against reconstruction and frequency analysis attacks by an honest-but-curious cloud. Extensive analysis and results using open-source LLMs show that NOIR significantly outperforms existing baselines on benchmarks, including the Evalplus (MBPP and HumanEval, Pass@1 of 76.7 and 77.4), and BigCodeBench (Pass@1 of 38.7, only a 1.77% drop from the original LLM) under strong privacy against attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)によるコード生成は、ソフトウェア開発のパフォーマンスを向上するが、サービスプロバイダ(クラウド)がクライアントのプロンプトと生成されたコードを監視し、商用システムでプロプライエタリなコードを生成するという事実から、知的財産権とデータセキュリティのリスクが引き起こされる。
この問題を軽減するために,クライアントのプロンプトと生成されたコードをクラウドから保護する最初のフレームワークであるNOIRを提案する。
NOIRは、クライアントのエンコーダとデコーダを使用して、プロンプトの埋め込みをエンコードし、クラウドに送信し、LLMからリッチな埋め込みを取得し、それをデコードしてクライアントでローカルにコードを生成する。
クラウドはプロンプトと生成されたコードを推論するために埋め込みを利用することができるため、NOIRは、トークンの埋め込みレベルでのローカルな差分プライバシー保護、プロンプトとコードで使用される語彙、クライアント側のデータ非依存でランダムなトークン化機能といった、新しいメカニズムを導入している。
これらのコンポーネントは、誠実だが正確な雲による復元と周波数分析攻撃を効果的に防御する。
オープンソースLLMを使用した大規模な分析と結果によると、NOIRはEvalplus(MBPP、HumanEval、Pass@1、76.7、77.4)やBigCodeBench(38.7のPass@1、元のLLMから1.77%の低下)など、攻撃に対する強力なプライバシの下で、既存のベンチマークベースラインを大幅に上回っている。
関連論文リスト
- Efficient Privacy-Preserving Retrieval Augmented Generation with Distance-Preserving Encryption [25.87368479678027]
RAGは高い計算コストを伴わずにLLMの応答品質を向上させる重要な技術として登場した。
従来のアーキテクチャでは、RAGサービスは、信頼できるローカル環境内でデータセットをホストする単一のエンティティによって提供される。
信頼できないサードパーティサービスへの依存は、プライバシーのリスクをもたらす。
信頼できないクラウド環境に適した効率的なプライバシ保護RAGフレームワーク(ppRAG)を提案する。
論文 参考訳(メタデータ) (2026-01-18T09:29:50Z) - ZORRO: Zero-Knowledge Robustness and Privacy for Split Learning (Full Version) [58.595691399741646]
Split Learning(SL)は、リソース制約のあるクライアントがディープニューラルネットワーク(DNN)を協調的にトレーニングすることを可能にする分散学習アプローチである。
このセットアップにより、SLはデータを共有せずにサーバの能力を活用することができ、機密データを扱うリソース制約のある環境で非常に効果的になる。
我々は、プライベートで検証可能な、堅牢なSL防御スキームであるZORROを提示する。
論文 参考訳(メタデータ) (2025-09-11T18:44:09Z) - Confidential Prompting: Privacy-preserving LLM Inference on Cloud [1.8575142641062914]
本稿では、2つの重要なイノベーションに基づいて構築されたシステムであるObfuscated Secure Partitioned Decoding (OSPD)を紹介する。
OSPDは、クラウド上の機密仮想マシンに格納されているユーザ毎のプロセス内で、ユーザのプロンプトを分離する。
POは、高度に迅速な再構築攻撃に対するSPDレジリエンスを高める新しい暗号技術を導入している。
論文 参考訳(メタデータ) (2024-09-27T20:32:42Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Secure Outsourced Decryption for FHE-based Privacy-preserving Cloud Computing [3.125865379632205]
ホモモルフィック暗号化(HE)は、データのプライバシを保護するためのソリューションのひとつであり、暗号化されたデータをクラウドでセキュアに処理できるようにする。
本稿では、RLWEをベースとした完全同型暗号方式のためのアウトソース復号化プロトコルを提案する。
実験により,提案プロトコルはクライアントのローカル復号化において最大67%の高速化を実現し,空間使用量の50%の削減を図った。
論文 参考訳(メタデータ) (2024-06-28T14:51:36Z) - $\Lambda$-Split: A Privacy-Preserving Split Computing Framework for
Cloud-Powered Generative AI [3.363904632882723]
本稿では,計算オフロードを容易にする分割計算フレームワークである$Lambda$-Splitを紹介する。
Lambda$-Splitでは、生成モデル(通常はディープニューラルネットワーク(DNN))が3つのサブモデルに分割され、ユーザのローカルデバイスとクラウドサーバに分散される。
このアーキテクチャにより、隠された層出力のみが送信されることが保証され、プライバシーに敏感な生入力および出力データの外部送信が防止される。
論文 参考訳(メタデータ) (2023-10-23T07:44:04Z) - REaaS: Enabling Adversarially Robust Downstream Classifiers via Robust
Encoder as a Service [67.0982378001551]
サービスプロバイダがエンコーダを事前トレーニングして、クラウドサービスAPIとしてデプロイする方法を示します。
クライアントはクラウドサービスAPIに問い合わせて、トレーニング/テスト入力のフィーチャーベクタを取得する。
私たちは、クライアントが下流の分類器の堅牢性を証明できるように、クラウドサービスが2つのAPIを提供する必要があることを示しています。
論文 参考訳(メタデータ) (2023-01-07T17:40:11Z) - NeuraCrypt: Hiding Private Health Data via Random Neural Networks for
Public Training [64.54200987493573]
我々は,ランダムな深層ニューラルネットワークに基づくプライベート符号化方式であるNeuraCryptを提案する。
NeuraCryptは、データ所有者のみが知っているランダムに構築されたニューラルネットワークを使用して、生の患者データをエンコードする。
我々は,NeuraCryptが,様々なX線タスクの非プライベートベースラインに対して,競合精度を達成することを示す。
論文 参考訳(メタデータ) (2021-06-04T13:42:21Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z) - CryptoSPN: Privacy-preserving Sum-Product Network Inference [84.88362774693914]
総生産ネットワーク(SPN)のプライバシ保護のためのフレームワークを提案する。
CryptoSPNは、中規模のSPNに対して秒の順序で高効率で正確な推論を行う。
論文 参考訳(メタデータ) (2020-02-03T14:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。