論文の概要: Uncovering Pretraining Code in LLMs: A Syntax-Aware Attribution Approach
- arxiv url: http://arxiv.org/abs/2511.07033v1
- Date: Mon, 10 Nov 2025 12:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.24054
- Title: Uncovering Pretraining Code in LLMs: A Syntax-Aware Attribution Approach
- Title(参考訳): LLMにおける事前学習コードの発見:構文対応属性アプローチ
- Authors: Yuanheng Li, Zhuoyang Chen, Xiaoyun Liu, Yuhao Wang, Mingwei Liu, Yang Shi, Kaifeng Huang, Shengjie Zhao,
- Abstract要約: オープンソースコードは、しばしばオープンソースライセンスによって保護されるが、事前トレーニングで使用する場合、法的および倫理的な課題を提起する。
コードに適した構文決定型メンバシップ推論攻撃法であるSynPruneを提案する。
- 参考スコア(独自算出の注目度): 20.775027150345107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become increasingly capable, concerns over the unauthorized use of copyrighted and licensed content in their training data have grown, especially in the context of code. Open-source code, often protected by open source licenses (e.g, GPL), poses legal and ethical challenges when used in pretraining. Detecting whether specific code samples were included in LLM training data is thus critical for transparency, accountability, and copyright compliance. We propose SynPrune, a syntax-pruned membership inference attack method tailored for code. Unlike prior MIA approaches that treat code as plain text, SynPrune leverages the structured and rule-governed nature of programming languages. Specifically, it identifies and excludes consequent tokens that are syntactically required and not reflective of authorship, from attribution when computing membership scores. Experimental results show that SynPrune consistently outperforms the state-of-the-arts. Our method is also robust across varying function lengths and syntax categories.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が向上するにつれて、特にコードのコンテキストにおいて、トレーニングデータにおける著作権やライセンスされたコンテンツの不正使用に対する懸念が高まっている。
オープンソースコードは、しばしばオープンソースライセンス(例えばGPL)によって保護されるが、事前トレーニングで使用する場合、法的および倫理的な課題を提起する。
従って、LLMトレーニングデータに特定のコードサンプルが含まれているかどうかを検出することは、透明性、説明責任、著作権の遵守にとって重要である。
コードに適した構文決定型メンバシップ推論攻撃法であるSynPruneを提案する。
コードをプレーンテキストとして扱う以前のMIAアプローチとは異なり、SynPruneはプログラミング言語の構造的およびルール統治的な性質を活用する。
具体的には、シンタクティックに必要であり、著者を反映していない後続のトークンを、メンバーシップスコアの計算時の属性から識別し、除外する。
実験結果から、SynPruneは一貫して最先端よりも優れています。
提案手法は,関数の長さや構文のカテゴリによっても頑健である。
関連論文リスト
- Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。
ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。
与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:23:37Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。
以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。