論文の概要: Whitespaces Don't Lie: Feature-Driven and Embedding-Based Approaches for Detecting Machine-Generated Code
- arxiv url: http://arxiv.org/abs/2601.19264v1
- Date: Tue, 27 Jan 2026 06:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.211246
- Title: Whitespaces Don't Lie: Feature-Driven and Embedding-Based Approaches for Detecting Machine-Generated Code
- Title(参考訳): Whitespaces Don't Lie: マシン生成コード検出のための機能駆動型および埋め込みベースのアプローチ
- Authors: Syed Mehedi Hasan Nirob, Shamim Ehsan, Moqsadur Rahman, Summit Haque,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語のプロンプトから可塑性ソースコードを驚くほど簡単に合成できる。
本稿では,2つの相補的アプローチを比較することで,機械生成コードと人間の書き起こしを区別する問題について検討する。
- 参考スコア(独自算出の注目度): 0.2624902795082451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made it remarkably easy to synthesize plausible source code from natural language prompts. While this accelerates software development and supports learning, it also raises new risks for academic integrity, authorship attribution, and responsible AI use. This paper investigates the problem of distinguishing human-written from machine-generated code by comparing two complementary approaches: feature-based detectors built from lightweight, interpretable stylometric and structural properties of code, and embedding-based detectors leveraging pretrained code encoders. Using a recent large-scale benchmark dataset of 600k human-written and AI-generated code samples, we find that feature-based models achieve strong performance (ROC-AUC 0.995, PR-AUC 0.995, F1 0.971), while embedding-based models with CodeBERT embeddings are also very competitive (ROC-AUC 0.994, PR-AUC 0.994, F1 0.965). Analysis shows that features tied to indentation and whitespace provide particularly discriminative cues, whereas embeddings capture deeper semantic patterns and yield slightly higher precision. These findings underscore the trade-offs between interpretability and generalization, offering practical guidance for deploying robust code-origin detection in academic and industrial contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語のプロンプトから可塑性ソースコードを驚くほど簡単に合成できる。
これはソフトウェア開発を加速させ、学習をサポートする一方で、学術的完全性、著者の帰属、責任あるAI利用に対する新たなリスクも引き起こす。
そこで,本研究では,人間の書き起こしと機械生成コードの区別の問題について,コードの軽量で解釈可能なテクスチャ特性と構造特性から構築された特徴ベース検出器と,事前訓練されたコードエンコーダを利用した埋め込みベース検出器の2つの相補的なアプローチを比較して検討する。
最近の600kの人書きおよびAI生成コードサンプルの大規模なベンチマークデータセットを用いて、機能ベースのモデルが強力なパフォーマンスを達成する(ROC-AUC 0.995, PR-AUC 0.995, F1 0.971)のに対し、CodeBERTの埋め込みモデルも非常に競争力がある(ROC-AUC 0.994, PR-AUC 0.994, F1 0.965)。
解析によると、インデンテーションやホワイトスペースに結びついた特徴は、特に差別的な手がかりを提供する一方、埋め込みはより深い意味パターンを捉え、わずかに精度を高めている。
これらの知見は、解釈可能性と一般化のトレードオフを浮き彫りにして、学術的・産業的な文脈で堅牢なコードオリジン検出を展開するための実践的なガイダンスを提供する。
関連論文リスト
- AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。
以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。
本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。