論文の概要: Investigating Training Data Detection in AI Coders
- arxiv url: http://arxiv.org/abs/2507.17389v1
- Date: Wed, 23 Jul 2025 10:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.958187
- Title: Investigating Training Data Detection in AI Coders
- Title(参考訳): AIコーダにおけるトレーニングデータ検出の検討
- Authors: Tianlin Li, Yunxiang Wei, Zhiming Li, Aishan Liu, Qing Guo, Xianglong Liu, Dongning Sun, Yang Liu,
- Abstract要約: コード大言語モデル(CodeLLM)の最近の進歩は、現代のソフトウェア工学において、それらが必須のツールとなっている。
これらのモデルは時に、プロプライエタリまたはセンシティブなコードスニペットを含む出力を生成し、トレーニングデータの非準拠な使用に関する懸念を提起する。
CodeLLMの責任とコンプライアンスを保証するため、トレーニングデータ検出(TDD)が重要なタスクになっている。
- 参考スコア(独自算出の注目度): 24.912965851207105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in code large language models (CodeLLMs) have made them indispensable tools in modern software engineering. However, these models occasionally produce outputs that contain proprietary or sensitive code snippets, raising concerns about potential non-compliant use of training data, and posing risks to privacy and intellectual property. To ensure responsible and compliant deployment of CodeLLMs, training data detection (TDD) has become a critical task. While recent TDD methods have shown promise in natural language settings, their effectiveness on code data remains largely underexplored. This gap is particularly important given code's structured syntax and distinct similarity criteria compared to natural language. To address this, we conduct a comprehensive empirical study of seven state-of-the-art TDD methods on source code data, evaluating their performance across eight CodeLLMs. To support this evaluation, we introduce CodeSnitch, a function-level benchmark dataset comprising 9,000 code samples in three programming languages, each explicitly labeled as either included or excluded from CodeLLM training. Beyond evaluation on the original CodeSnitch, we design targeted mutation strategies to test the robustness of TDD methods under three distinct settings. These mutation strategies are grounded in the well-established Type-1 to Type-4 code clone detection taxonomy. Our study provides a systematic assessment of current TDD techniques for code and offers insights to guide the development of more effective and robust detection methods in the future.
- Abstract(参考訳): コード大言語モデル(CodeLLMs)の最近の進歩は、現代のソフトウェア工学において、それらが欠かせないツールとなった。
しかしながら、これらのモデルは時に、プロプライエタリまたはセンシティブなコードスニペットを含むアウトプットを生成し、トレーニングデータの潜在的な非準拠使用に対する懸念を高め、プライバシと知的財産権にリスクを及ぼす。
CodeLLMの責任とコンプライアンスを保証するため、トレーニングデータ検出(TDD)が重要なタスクになっている。
最近のTDDメソッドは、自然言語設定で有望であることを示しているが、コードデータに対するその有効性は、まだほとんど調査されていない。
このギャップは、自然言語と比較して、コードの構造化構文と明確な類似性基準を考えると、特に重要である。
これを解決するために,ソースコードデータに対する7つの最先端TDDメソッドの総合的研究を行い,その性能を8つのCodeLLMで評価した。
この評価を支援するために、3つのプログラミング言語で9000のコードサンプルからなる関数レベルのベンチマークデータセットであるCodeSnitchを紹介した。
CodeSnitchの評価以外にも、3つの異なる設定の下でTDDメソッドの堅牢性をテストするために、ターゲットの突然変異戦略を設計する。
これらの変異戦略は、確立されたType-1からType-4コードクローン検出分類において基礎を置いている。
私たちの研究は、コードに対する現在のTDDテクニックの体系的な評価を提供し、将来より効果的で堅牢な検出方法の開発をガイドするための洞察を提供する。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs [15.25980318643715]
大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、膨大な量のAI生成ソースコードを生み出している。
既存のベンチマークは不足している -- ほとんどの場合、限られたプログラム言語のみをカバーし、能力の低い生成モデルに依存している。
私たちは、広く使われている10のプログラミング言語にまたがるベンチマークであるCodeMirageを紹介します。
論文 参考訳(メタデータ) (2025-05-27T03:25:12Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets [8.977790462534152]
本稿では,コードの構造に合わせた新しいラインレベルの検出とクリーン化手法であるDePAを提案する。
DePAは既存の方法よりも優れており、検出F1スコアが0.14-0.19向上し、有毒セグメントの局在精度が44-65%向上した。
論文 参考訳(メタデータ) (2025-02-27T16:30:00Z) - An Effective Approach to Embedding Source Code by Combining Large Language and Sentence Embedding Models [6.976968804436321]
本稿では,大言語と文埋め込みモデルを組み合わせた新しいソースコード埋め込み手法を提案する。
提案手法の性能を評価するため,異なるプログラミング言語を用いた3つのデータセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。
本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文 参考訳(メタデータ) (2024-02-21T04:10:12Z) - Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code [13.135962181354465]
コード監査は、開発済みのコードが標準、規制、著作権保護に準拠していることを保証する。
ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。
LLMのトレーニングデータセットにコードを含むことを検出するモデルに依存しない、解釈可能な方法であるTraWiCを提案する。
論文 参考訳(メタデータ) (2024-02-14T16:41:35Z) - CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code
Generation [6.139760107605468]
チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。
コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
論文 参考訳(メタデータ) (2023-08-17T04:58:51Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。