論文の概要: SERSEM: Selective Entropy-Weighted Scoring for Membership Inference in Code Language Models
- arxiv url: http://arxiv.org/abs/2604.01147v1
- Date: Wed, 01 Apr 2026 17:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.106316
- Title: SERSEM: Selective Entropy-Weighted Scoring for Membership Inference in Code Language Models
- Title(参考訳): SERSEM: コード言語モデルにおけるメンバシップ推論のための選択エントロピー重み付きスコアリング
- Authors: Kıvanç Kuzey Dikici, Serdar Kara, Semih Çağlar, Eray Tüzün, Sinem Sav,
- Abstract要約: 記憶信号の増幅のために非形式的統語的ボイラプレートを抑える新しいホワイトボックス攻撃フレームワークであるSERSEMを提案する。
以上の結果から,人間中心の符号化異常に注目することは,列レベルの確率平均よりも格段に頑健な暗記の指標となることが示唆された。
- 参考スコア(独自算出の注目度): 1.327416973220814
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Large Language Models (LLMs) for code increasingly utilize massive, often non-permissively licensed datasets, evaluating data contamination through Membership Inference Attacks (MIAs) has become critical. We propose SERSEM (Selective Entropy-Weighted Scoring for Membership Inference), a novel white-box attack framework that suppresses uninformative syntactical boilerplate to amplify specific memorization signals. SERSEM utilizes a dual-signal methodology: first, a continuous character-level weight mask is derived through static Abstract Syntax Tree (AST) analysis, spellchecking-based multilingual logic detection, and offline linting. Second, these heuristic weights are used to pool internal transformer activations and calibrate token-level Z-scores from the output logits. Evaluated on a 25,000-sample balanced dataset, SERSEM achieves a global AUC-ROC of 0.7913 on the StarCoder2-3B model and 0.7867 on the StarCoder2-7B model, consistently outperforming the implemented probability-based baselines Loss, Min-K% Prob, and PAC. Our findings demonstrate that focusing on human-centric coding anomalies provides a significantly more robust indicator of verbatim memorization than sequence-level probability averages.
- Abstract(参考訳): コードのための大規模言語モデル(LLM)は、大規模でしばしば許可されていないデータセットをますます利用し、メンバーシップ推論攻撃(MIA)によるデータ汚染を評価することが重要になっている。
提案するSERSEM(Selective Entropy-Weighted Scoring for Membership Inference)は,非形式的構文的ボイラプレートを抑え,特定の記憶信号の増幅を行う新しいホワイトボックス攻撃フレームワークである。
まず、連続的な文字レベルの重みマスクは静的抽象構文木(AST)解析、スペルチェックに基づく多言語論理検出、オフラインリンティングによって導出される。
第二に、これらのヒューリスティックウェイトは内部変圧器の活性化をプールし、出力ロジットからトークンレベルZスコアを校正するために使用される。
25,000サンプルのバランスデータセットに基づいて、SERSEMはStarCoder2-3Bモデルで0.7913のAUC-ROC、StarCoder2-7Bモデルで0.7867のAUC-ROCを達成し、実装された確率ベースベースラインロス、Min-K% Prob、PACを一貫して上回っている。
以上の結果から,人間中心の符号化異常に注目することは,列レベルの確率平均よりも格段に頑健な暗記の指標となることが示唆された。
関連論文リスト
- Membership Inference Attacks against Large Audio Language Models [50.84901010528239]
大規模音声言語モデル(LALM)のMIA評価について述べる。
テキスト,スペクトル,韻律的特徴に基づくマルチモーダルブラインドベースラインを用いて,一般的な音声データセットがほぼ完璧な列車/テスト分離性を示すことを示す。
以上の結果から, LALM検査の基準基準が確立された。
論文 参考訳(メタデータ) (2026-03-30T12:45:28Z) - Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - Refining Decision Boundaries In Anomaly Detection Using Similarity Search Within the Feature Space [3.3202103799131795]
SDA2E(Sparse Dual Adversarial Attention-based AutoEncoder)を導入する。
本稿では,意思決定境界を効率的に洗練するための3つの新しい戦略を統合した類似性誘導型アクティブラーニングフレームワークを提案する。
SDA2Eは、複数のDARPAトランスペアレントコンピューティングシナリオを含む52の不均衡データセットにわたって広範囲に評価し、15の最先端の異常検出手法と比較した。
論文 参考訳(メタデータ) (2026-02-02T23:55:08Z) - Self-Paced Learning for Images of Antinuclear Antibodies [17.410595974529457]
抗核抗体(ANA)検査は、ループス、シェーグレン症候群、硬化症などの自己免疫疾患を診断するための重要な方法である。
ANA検出は100種以上存在する抗体型によって複雑になり、蛍光パターンの組み合わせが大きくなる。
本稿では,手作業による事前処理を伴わない顕微鏡画像を用いたMIMLタスクの複雑度を扱う新しいANA検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-26T15:50:03Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - MAPL: Memory Augmentation and Pseudo-Labeling for Semi-Supervised Anomaly Detection [0.0]
メモリ拡張(Memory Augmentation)と擬似ラベル(Pseudo-Labeling, MAPL)と呼ばれる, 産業環境における表面欠陥検出のための新しいメソドロジーを導入する。
この手法は、まず異常シミュレーション戦略を導入し、希少または未知の異常型を認識するモデルの能力を著しく改善する。
入力データから直接異常領域を識別するために、MAPLによってエンドツーエンドの学習フレームワークが使用される。
論文 参考訳(メタデータ) (2024-05-10T02:26:35Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。