論文の概要: Effective Code Membership Inference for Code Completion Models via Adversarial Prompts
- arxiv url: http://arxiv.org/abs/2511.15107v1
- Date: Wed, 19 Nov 2025 04:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.631266
- Title: Effective Code Membership Inference for Code Completion Models via Adversarial Prompts
- Title(参考訳): 逆数プロンプトによるコード補完モデルの効果的なコードメンバーシップ推論
- Authors: Yuan Jiang, Zehao Li, Shan Huang, Christoph Treude, Xiaohong Su, Tiantian Wang,
- Abstract要約: コード補完モデルにおけるメンバーシップ推論攻撃(MIA)は、プライバシーリスクを評価する効果的な方法を提供する。
本稿では,コード補完モデルに特化して設計されたAdvPrompt-MIAを提案する。
我々は、APPSおよびHumanEvalベンチマークに対して、Code Llama 7Bのような広く採用されているモデルに対して包括的な評価を行う。
- 参考スコア(独自算出の注目度): 17.428753624187717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Membership inference attacks (MIAs) on code completion models offer an effective way to assess privacy risks by inferring whether a given code snippet was part of the training data. Existing black- and gray-box MIAs rely on expensive surrogate models or manually crafted heuristic rules, which limit their ability to capture the nuanced memorization patterns exhibited by over-parameterized code language models. To address these challenges, we propose AdvPrompt-MIA, a method specifically designed for code completion models, combining code-specific adversarial perturbations with deep learning. The core novelty of our method lies in designing a series of adversarial prompts that induce variations in the victim code model's output. By comparing these outputs with the ground-truth completion, we construct feature vectors to train a classifier that automatically distinguishes member from non-member samples. This design allows our method to capture richer memorization patterns and accurately infer training set membership. We conduct comprehensive evaluations on widely adopted models, such as Code Llama 7B, over the APPS and HumanEval benchmarks. The results show that our approach consistently outperforms state-of-the-art baselines, with AUC gains of up to 102%. In addition, our method exhibits strong transferability across different models and datasets, underscoring its practical utility and generalizability.
- Abstract(参考訳): コード補完モデルのメンバシップ推論攻撃(MIA)は、トレーニングデータの一部であるかどうかを推測することで、プライバシーリスクを評価する効果的な方法を提供する。
既存のブラックボックスとグレーボックスMIAは高価なサロゲートモデルや手作業によるヒューリスティックルールに依存しており、過度にパラメータ化されたコード言語モデルによって表現されるニュアンスな暗記パターンをキャプチャする能力を制限する。
これらの課題に対処するために,コード固有対向摂動とディープラーニングを組み合わせた,コード補完モデルに特化して設計されたAdvPrompt-MIAを提案する。
我々の手法の中核的な特徴は、犠牲者のコードモデルの出力の変動を誘発する一連の逆のプロンプトを設計することにある。
これらの出力と接地構造完備度を比較することで、特徴ベクトルを構築し、メンバーを非メンバーサンプルから自動的に区別する分類器を訓練する。
この設計により、よりリッチな記憶パターンをキャプチャし、トレーニングセットのメンバシップを正確に推測することができる。
我々は、APPSおよびHumanEvalベンチマークに対して、Code Llama 7Bのような広く採用されているモデルに対して包括的な評価を行う。
その結果,AUCは最大102%向上し,最先端のベースラインを一貫して上回っていることがわかった。
さらに,本手法は,様々なモデルやデータセット間で強い伝達可能性を示し,その実用性と一般化性を示す。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - An Effective Approach to Embedding Source Code by Combining Large Language and Sentence Embedding Models [6.976968804436321]
本稿では,大言語と文埋め込みモデルを組み合わせた新しいソースコード埋め込み手法を提案する。
提案手法の性能を評価するため,異なるプログラミング言語を用いた3つのデータセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization [34.29833630422768]
Adversarial Contrastive Decoding (ACD)は、プロンプトベースのコントラストデコーディングのための2つの逆のシステムプロンプトを生成する最適化ベースのフレームワークである。
ACDは、元の生成能力を犠牲にすることなく、従来のトレーニング不要復号法よりもはるかに優れた安全性を実現する。
論文 参考訳(メタデータ) (2024-06-24T15:51:30Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code
Generation [6.139760107605468]
チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。
コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
論文 参考訳(メタデータ) (2023-08-17T04:58:51Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。