論文の概要: I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution
- arxiv url: http://arxiv.org/abs/2506.17323v1
- Date: Wed, 18 Jun 2025 19:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.348341
- Title: I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution
- Title(参考訳): 去年の夏、LLMはどのLLMでコードを書きましたか? LLMはオーサリング属性のためのコードスティロメトリを生成しました
- Authors: Tamas Bisztray, Bilel Cherif, Richard A. Dubniczky, Nils Gruschka, Bertalan Borsos, Mohamed Amine Ferrag, Attila Kovacs, Vasileios Mavroeidis, Norbert Tihanyi,
- Abstract要約: 本稿では,Cプログラムの著者帰属に関する最初の体系的研究について述べる。
CodeT5-Authorshipは、オリジナルのCodeT5エンコーダ-デコーダアーキテクチャのエンコーダ層のみを使用する新しいモデルです。
本モデルでは,近縁なモデルによって生成されたCプログラムを97.56%の精度で識別する。
- 参考スコア(独自算出の注目度): 0.0580448704422069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting AI-generated code, deepfakes, and other synthetic content is an emerging research challenge. As code generated by Large Language Models (LLMs) becomes more common, identifying the specific model behind each sample is increasingly important. This paper presents the first systematic study of LLM authorship attribution for C programs. We released CodeT5-Authorship, a novel model that uses only the encoder layers from the original CodeT5 encoder-decoder architecture, discarding the decoder to focus on classification. Our model's encoder output (first token) is passed through a two-layer classification head with GELU activation and dropout, producing a probability distribution over possible authors. To evaluate our approach, we introduce LLM-AuthorBench, a benchmark of 32,000 compilable C programs generated by eight state-of-the-art LLMs across diverse tasks. We compare our model to seven traditional ML classifiers and eight fine-tuned transformer models, including BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer, and LoRA-fine-tuned Qwen2-1.5B. In binary classification, our model achieves 97.56% accuracy in distinguishing C programs generated by closely related models such as GPT-4.1 and GPT-4o, and 95.40% accuracy for multi-class attribution among five leading LLMs (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3, and DeepSeek-V3). To support open science, we release the CodeT5-Authorship architecture, the LLM-AuthorBench benchmark, and all relevant Google Colab scripts on GitHub: https://github.com/LLMauthorbench/.
- Abstract(参考訳): AI生成コード、ディープフェイク、その他の合成コンテンツを検出することは、新たな研究課題である。
LLM(Large Language Models)によって生成されるコードがより一般的になるにつれて、各サンプルの背後にある特定のモデルを特定することがますます重要になる。
本稿では,C言語プログラムにおけるLLMオーサシップの帰属に関する最初の体系的研究について述べる。
CodeT5-Authorshipは、オリジナルのCodeT5エンコーダ-デコーダアーキテクチャのエンコーダ層のみを使用する、新しいモデルです。
我々のモデルのエンコーダ出力(第1トークン)はGELUアクティベーションとドロップアウトを持つ2層分類ヘッドに渡され、可能な著者の確率分布を生成する。
LLM-AuthorBenchは,8つの最先端LCMが生成する32,000個のコンパイル可能なCプログラムのベンチマークである。
我々は,従来の7つのML分類器と,BERT,RoBERTa,CodeBERT,ModernBERT,DistilBERT,DeBERTa-V3,Longformer,LoRA-fine-tuned Qwen2-1.5Bを含む8つの微調整トランスフォーマモデルを比較した。
バイナリ分類では, GPT-4.1 や GPT-4o などの近縁モデルで生成された C プログラムを 97.56% の精度で識別し, 5 つの主要な LLM (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3, DeepSeek-V3) の多クラス属性を95.40% の精度で識別する。
オープンサイエンスをサポートするため、私たちはCodeT5-Authorshipアーキテクチャ、LLM-AuthorBenchベンチマーク、GitHub上のすべての関連するGoogle Colabスクリプトをリリースしました。
関連論文リスト
- Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Automatic Detection of LLM-generated Code: A Case Study of Claude 3 Haiku [3.5411188659374213]
CodeSearchNetデータセット上でClude 3 Haiku(またはClude 3 for brevity)のケーススタディを実行する。
粒度レベルごとに,コードラインやサイクロマティック複雑度などの22のソフトウェアメトリクス特徴を抽出する。
我々は、Claude 3 が生成したコードスニペットを抽出した特徴を用いて解析し、Claude 3 が生成したコードがいかにユニークかを理解する。
論文 参考訳(メタデータ) (2024-09-02T17:25:15Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。