論文の概要: The Hidden DNA of LLM-Generated JavaScript: Structural Patterns Enable High-Accuracy Authorship Attribution
- arxiv url: http://arxiv.org/abs/2510.10493v1
- Date: Sun, 12 Oct 2025 07:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.974924
- Title: The Hidden DNA of LLM-Generated JavaScript: Structural Patterns Enable High-Accuracy Authorship Attribution
- Title(参考訳): LLM生成JavaScriptの隠れDNA: 高精度オーサシップ属性を可能にする構造パターン
- Authors: Norbert Tihanyi, Bilel Cherif, Richard A. Dubniczky, Mohamed Amine Ferrag, Tamás Bisztray,
- Abstract要約: 大規模言語モデルによって生成されたJavaScriptコードが、どのモデルで生成されたかを明らかにすることができるかどうかについて、最初の大規模研究を行った。
それぞれのLLMが、同じファミリーやパラメータサイズに属するモデルであっても、独自のスタイル的シグネチャを残していることを示す。
LLM-NodeJSは、20の大規模言語モデルから5万のNode.jsバックエンドプログラムのデータセットである。
- 参考スコア(独自算出の注目度): 2.334824705384299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the first large-scale study exploring whether JavaScript code generated by Large Language Models (LLMs) can reveal which model produced it, enabling reliable authorship attribution and model fingerprinting. With the rapid rise of AI-generated code, attribution is playing a critical role in detecting vulnerabilities, flagging malicious content, and ensuring accountability. While AI-vs-human detection usually treats AI as a single category we show that individual LLMs leave unique stylistic signatures, even among models belonging to the same family or parameter size. To this end, we introduce LLM-NodeJS, a dataset of 50,000 Node.js back-end programs from 20 large language models. Each has four transformed variants, yielding 250,000 unique JavaScript samples and two additional representations (JSIR and AST) for diverse research applications. Using this dataset, we benchmark traditional machine learning classifiers against fine-tuned Transformer encoders and introduce CodeT5-JSA, a custom architecture derived from the 770M-parameter CodeT5 model with its decoder removed and a modified classification head. It achieves 95.8% accuracy on five-class attribution, 94.6% on ten-class, and 88.5% on twenty-class tasks, surpassing other tested models such as BERT, CodeBERT, and Longformer. We demonstrate that classifiers capture deeper stylistic regularities in program dataflow and structure, rather than relying on surface-level features. As a result, attribution remains effective even after mangling, comment removal, and heavy code transformations. To support open science and reproducibility, we release the LLM-NodeJS dataset, Google Colab training scripts, and all related materials on GitHub: https://github.com/LLM-NodeJS-dataset.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) が生成する JavaScript コードがどのモデルで生成したのかを探索し,信頼性の高いオーサリング属性とモデルフィンガープリントを可能にする。
AI生成コードの急速な増加に伴い、アトリビューションは脆弱性の検出、悪意のあるコンテンツのフラグ付け、説明責任の確保に重要な役割を果たしている。
AI-vs人間検出は通常、AIを単一のカテゴリとして扱うが、個々のLLMは、同じファミリーやパラメータサイズに属するモデルであっても、独自のスタイル上のシグネチャを残す。
この目的のために、20の大規模言語モデルから5万のNode.jsバックエンドプログラムのデータセットであるLLM-NodeJSを紹介します。
それぞれが変換された4つの変種を持ち、25万のユニークなJavaScriptサンプルと、さまざまな研究アプリケーションのための2つの追加表現(JSIRとAST)を提供する。
このデータセットを用いて、細調整されたトランスフォーマーエンコーダに対して従来の機械学習分類器をベンチマークし、デコーダを除去した770MパラメータのCodeT5モデルから派生したカスタムアーキテクチャであるCodeT5-JSAを導入する。
5クラスの属性で95.8%、10クラスの属性で94.6%、20クラスのタスクで88.5%の精度を達成し、BERT、CodeBERT、Longformerといった他のテストモデルを上回っている。
我々は,プログラムデータフローや構造において,表面的特徴に頼らず,より深い形式的規則性を持つ分類器を実証する。
結果として、処理、コメントの削除、重いコード変換の後にも、帰属性は依然として有効である。
オープンサイエンスと再現性をサポートするため、LLM-NodeJSデータセット、Google Colabトレーニングスクリプト、GitHub上のすべての関連資料をリリースしました。
関連論文リスト
- I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution [0.0580448704422069]
本稿では,Cプログラムの著者帰属に関する最初の体系的研究について述べる。
CodeT5-Authorshipは、オリジナルのCodeT5エンコーダ-デコーダアーキテクチャのエンコーダ層のみを使用する新しいモデルです。
本モデルでは,近縁なモデルによって生成されたCプログラムを97.56%の精度で識別する。
論文 参考訳(メタデータ) (2025-06-18T19:49:41Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。
本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。
また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - I Can Find You in Seconds! Leveraging Large Language Models for Code Authorship Attribution [10.538442986619147]
State-of-the-art large language model (LLM)は、様々な言語でソースコードのオーサリングに成功している。
LLMは、悪質な攻撃に対する敵対的な堅牢性を示す。
本稿では,大規模属性に対するトーナメント方式のアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-14T14:46:19Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。
JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。
JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文 参考訳(メタデータ) (2022-12-18T17:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。