論文の概要: Uncovering Pretraining Code in LLMs: A Syntax-Aware Attribution Approach
- arxiv url: http://arxiv.org/abs/2511.07033v1
- Date: Mon, 10 Nov 2025 12:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.24054
- Title: Uncovering Pretraining Code in LLMs: A Syntax-Aware Attribution Approach
- Title(参考訳): LLMにおける事前学習コードの発見:構文対応属性アプローチ
- Authors: Yuanheng Li, Zhuoyang Chen, Xiaoyun Liu, Yuhao Wang, Mingwei Liu, Yang Shi, Kaifeng Huang, Shengjie Zhao,
- Abstract要約: オープンソースコードは、しばしばオープンソースライセンスによって保護されるが、事前トレーニングで使用する場合、法的および倫理的な課題を提起する。
コードに適した構文決定型メンバシップ推論攻撃法であるSynPruneを提案する。
- 参考スコア(独自算出の注目度): 20.775027150345107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become increasingly capable, concerns over the unauthorized use of copyrighted and licensed content in their training data have grown, especially in the context of code. Open-source code, often protected by open source licenses (e.g, GPL), poses legal and ethical challenges when used in pretraining. Detecting whether specific code samples were included in LLM training data is thus critical for transparency, accountability, and copyright compliance. We propose SynPrune, a syntax-pruned membership inference attack method tailored for code. Unlike prior MIA approaches that treat code as plain text, SynPrune leverages the structured and rule-governed nature of programming languages. Specifically, it identifies and excludes consequent tokens that are syntactically required and not reflective of authorship, from attribution when computing membership scores. Experimental results show that SynPrune consistently outperforms the state-of-the-arts. Our method is also robust across varying function lengths and syntax categories.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が向上するにつれて、特にコードのコンテキストにおいて、トレーニングデータにおける著作権やライセンスされたコンテンツの不正使用に対する懸念が高まっている。
オープンソースコードは、しばしばオープンソースライセンス(例えばGPL)によって保護されるが、事前トレーニングで使用する場合、法的および倫理的な課題を提起する。
従って、LLMトレーニングデータに特定のコードサンプルが含まれているかどうかを検出することは、透明性、説明責任、著作権の遵守にとって重要である。
コードに適した構文決定型メンバシップ推論攻撃法であるSynPruneを提案する。
コードをプレーンテキストとして扱う以前のMIAアプローチとは異なり、SynPruneはプログラミング言語の構造的およびルール統治的な性質を活用する。
具体的には、シンタクティックに必要であり、著者を反映していない後続のトークンを、メンバーシップスコアの計算時の属性から識別し、除外する。
実験結果から、SynPruneは一貫して最先端よりも優れています。
提案手法は,関数の長さや構文のカテゴリによっても頑健である。
関連論文リスト
- Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。
ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。
与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:23:37Z) - Adapting Pretrained Language Models for Citation Classification via Self-Supervised Contrastive Learning [13.725832389453911]
サイテーション分類は学術的な分析に欠かせない。
先行研究は、引用分類に基づく微調整事前学習言語モデル(PLM)を示唆している。
我々はこれらの課題を克服するためにPLMに適応する新しいフレームワーク、Citssを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:05:27Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Detection of LLM-Paraphrased Code and Identification of the Responsible LLM Using Coding Style Features [5.774786149181392]
Aliciousのユーザは、大きな言語モデル(LLM)を使って、オリジナルのものとよく似ているプロプライエタリなコードのパラフレーズ付きバージョンを生成することができる。
LPcodedecは人書きとLLM生成コード間のパラフレーズ関係を識別する手法である。
LPcodedecは2つのタスクで最高のベースラインを達成し、F1スコアは2.64%、F1スコアは15.17%向上し、それぞれ1,343xと213xのスピードアップを達成した。
論文 参考訳(メタデータ) (2025-02-25T00:58:06Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。
以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code [13.135962181354465]
コード監査は、開発済みのコードが標準、規制、著作権保護に準拠していることを保証する。
ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。
LLMのトレーニングデータセットにコードを含むことを検出するモデルに依存しない、解釈可能な方法であるTraWiCを提案する。
論文 参考訳(メタデータ) (2024-02-14T16:41:35Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。