論文の概要: How Quantization Impacts Privacy Risk on LLMs for Code?
- arxiv url: http://arxiv.org/abs/2508.00128v1
- Date: Thu, 31 Jul 2025 19:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.650524
- Title: How Quantization Impacts Privacy Risk on LLMs for Code?
- Title(参考訳): コードのLCMにプライバシリスクはどのように影響するか?
- Authors: Md Nazmul Haque, Hua Yang, Zhou Yang, Bowen Xu,
- Abstract要約: LLMs4Codeにおいて、量子化がタスク性能とプライバシリスクにどのように影響するかについて、最初の実証的研究を行った。
以上の結果から,量子化がプライバシリスクの低減に大きく影響していることが示唆された。
また、タスクパフォーマンスとプライバシリスクの正の相関を見出した。
- 参考スコア(独自算出の注目度): 8.607910400111853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models for code (LLMs4Code) rely heavily on massive training data, including sensitive data, such as cloud service credentials of the projects and personal identifiable information of the developers, raising serious privacy concerns. Membership inference (MI) has recently emerged as an effective tool for assessing privacy risk by identifying whether specific data belong to a model's training set. In parallel, model compression techniques, especially quantization, have gained traction for reducing computational costs and enabling the deployment of large models. However, while quantized models still retain knowledge learned from the original training data, it remains unclear whether quantization affects their ability to retain and expose privacy information. Answering this question is of great importance to understanding privacy risks in real-world deployments. In this work, we conduct the first empirical study on how quantization influences task performance and privacy risk simultaneously in LLMs4Code. To do this, we implement widely used quantization techniques (static and dynamic) to three representative model families, namely Pythia, CodeGen, and GPTNeo. Our results demonstrate that quantization has a significant impact on reducing the privacy risk relative to the original model. We also uncover a positive correlation between task performance and privacy risk, indicating an underlying tradeoff. Moreover, we reveal the possibility that quantizing larger models could yield better balance than using full-precision small models. Finally, we demonstrate that these findings generalize across different architectures, model sizes and MI methods, offering practical guidance for safeguarding privacy when deploying compressed LLMs4Code.
- Abstract(参考訳): コードのための大規模言語モデル(LLMs4Code)は、プロジェクトのクラウドサービスの認証情報や開発者の個人識別情報といったセンシティブなデータを含む、大規模なトレーニングデータに大きく依存している。
メンバーシップ推論(MI)は、特定のデータがモデルのトレーニングセットに属するかどうかを識別することで、プライバシリスクを評価する効果的なツールとして最近登場した。
並行して、モデル圧縮技術、特に量子化は、計算コストを削減し、大規模モデルの展開を可能にした。
しかし、量子化モデルは元のトレーニングデータから学んだ知識を維持しているが、量子化がプライバシ情報の保持と公開に影響を及ぼすかどうかは不明だ。
この質問に答えることは、現実世界のデプロイメントにおけるプライバシーリスクを理解する上で非常に重要である。
本研究では,LLMs4Codeにおいて,量子化がタスク性能とプライバシリスクにどのように影響するかを同時に検討する。
そこで我々は、Pythia、CodeGen、GPTNeoという3つの代表的なモデルファミリに広く使われている量子化技術(静的および動的)を実装した。
以上の結果から,量子化がプライバシリスクの低減に大きく影響していることが示唆された。
また、タスクパフォーマンスとプライバシリスクの正の相関を見出した。
さらに、より大規模なモデルを定量化すれば、完全精度の小さなモデルよりもバランスが良くなる可能性を明らかにした。
最後に、これらの知見は、異なるアーキテクチャ、モデルサイズ、MIメソッドにまたがって一般化され、圧縮LLMs4Codeをデプロイする際のプライバシ保護のための実践的なガイダンスを提供する。
関連論文リスト
- When Better Features Mean Greater Risks: The Performance-Privacy Trade-Off in Contrastive Learning [9.660010886245155]
本稿では,エンコーダモデルを対象としたMIA攻撃によるプライバシの脅威を系統的に検討する。
本稿では,Lp-Norm Likelihood Attack (LpLA) と呼ばれる特徴ベクトルのpノルムに基づく新しいメンバシップ推論攻撃法を提案する。
論文 参考訳(メタデータ) (2025-06-06T05:03:29Z) - Multi-Objective Optimization-Based Anonymization of Structured Data for Machine Learning Application [0.5452584641316627]
データ共有におけるプライバシー問題に対処する様々な手法が提案されている。
これらの方法は、しばしばデータユーティリティを劣化させ、機械学習(ML)モデルの性能に影響を与える。
本稿では,情報損失を同時に最小化し,攻撃に対する防御を最大化する新しい多目的最適化モデルを提案する。
論文 参考訳(メタデータ) (2025-01-02T01:52:36Z) - On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。
また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文 参考訳(メタデータ) (2024-11-15T17:11:42Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Initialization Matters: Privacy-Utility Analysis of Overparameterized
Neural Networks [72.51255282371805]
我々は、最悪の近傍データセット上でのモデル分布間のKLばらつきのプライバシー境界を証明した。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
論文 参考訳(メタデータ) (2023-10-31T16:13:22Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。