論文の概要: Reassessing Code Authorship Attribution in the Era of Language Models
- arxiv url: http://arxiv.org/abs/2506.17120v1
- Date: Fri, 20 Jun 2025 16:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.535927
- Title: Reassessing Code Authorship Attribution in the Era of Language Models
- Title(参考訳): 言語モデルの時代におけるコードオーサシップの属性の再評価
- Authors: Atish Kumar Dipongkor, Ziyu Yao, Kevin Moran,
- Abstract要約: 本研究の目的は,コードサンプルの作成者を特定するためのコーディングスタイルの分析である。
コードオーサシップ・アトリビューション(CAA)は、サイバーセキュリティとソフトウェアにおいて、盗作行為に対処し、検出し、刑事訴追をサポートするために不可欠である。
- 参考スコア(独自算出の注目度): 12.590406993068523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of Code Stylometry, and in particular Code Authorship Attribution (CAA), aims to analyze coding styles to identify the authors of code samples. CAA is crucial in cybersecurity and software forensics for addressing, detecting plagiarism, and supporting criminal prosecutions. However, CAA is a complex and error prone task, due to the need for recognizing nuanced relationships between coding patterns. This challenge is compounded in large software systems with numerous authors due to the subtle variability of patterns that signify the coding style of one author among many. Given the challenges related to this task, researchers have proposed and studied automated approaches that rely upon classical Machine Learning and Deep Learning techniques. However, such techniques have historically relied upon hand-crafted features, and due to the often intricate interaction of different features (e.g., formatting, etc.), have key limitations in properly characterizing authorship, and are sensitive to adversarial code perturbations. Recently, transformer-based Language Models (LMs) have shown remarkable efficacy across a range of software engineering tasks, and in the authorship attribution on natural language in the NLP domain. However, their effectiveness in CAA is not well understood. As such, we conduct the first extensive empirical study applying two larger state-of-the-art code LMs, and five smaller code LMs to the task of CAA to 6 diverse datasets that encompass 12k code snippets written by 463 developers. Furthermore, we perform an in-depth analysis of our studied models' performance on CAA using established machine learning interpretability techniques. The results of our analysis illustrate important findings that illuminate the behavior of LMs in understanding stylometric code patterns during the task of CAA, and point towards important directions for future work.
- Abstract(参考訳): Code Stylometry、特にCode Authorship Attribution (CAA)の研究は、コードサンプルの作者を特定するためのコーディングスタイルの分析を目的としている。
CAAは、サイバーセキュリティとソフトウェア法医学において、盗作行為の対処、検出、および刑事訴追の支援に不可欠である。
しかし、CAAはコーディングパターン間のニュアンスな関係を認識する必要があるため、複雑でエラーのやすいタスクである。
この課題は、多くの著者が1人の著者のコーディングスタイルを示すパターンの微妙な多様性のために、大規模なソフトウェアシステムで複雑化されている。
このタスクに関連する課題を踏まえ、研究者は古典的な機械学習とディープラーニング技術に依存する自動化アプローチを提案し、研究してきた。
しかし、こうした技法は歴史的に手作りの特徴に依存しており、しばしば異なる特徴(例えば、書式など)の複雑な相互作用のため、著者を適切に特徴づける上で重要な制限があり、敵のコード摂動に敏感である。
近年,トランスフォーマーに基づく言語モデル (LM) は,様々なソフトウェア工学的タスクにおいて顕著な有効性を示し,またNLP領域における自然言語の作者の貢献にも寄与している。
しかし,CAAの有効性はよく分かっていない。
そこで我々は,463人の開発者が作成した12kコードスニペットを含むCAAから6つの多様なデータセットに対して,2つの大きな最先端コードLMと5つの小さなコードLMを適用した最初の大規模な実証的研究を行った。
さらに,確立した機械学習の解釈可能性技術を用いて,検討したモデルの性能をCAA上で詳細に解析する。
分析の結果,CAAの課題におけるスタイル的コードパターンの理解において,LMの動作を照らし出す重要な知見が示され,今後の作業における重要な方向性が示唆された。
関連論文リスト
- How Does LLM Reasoning Work for Code? A Survey and a Call to Action [15.390359698398283]
大規模言語モデル (LLM) はコード領域に拡張され、コード生成、翻訳、要約、修復といった複雑な作業が容易になった。
特に、GitHubのイシュー解決のようなソフトウェアエンジニアリング(SWE)タスクについて研究されている。
本研究では,そのようなタスクを遂行する能力が不足しているコード推論手法について検討し,その性能向上に使用されるパラダイムについて検討する。
論文 参考訳(メタデータ) (2025-06-16T19:18:09Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset [0.0]
Source Code Authorship Attribution (SCAA)は、ソフトウェアの起源と振舞いに関する洞察を提供するため、ソフトウェア分類に不可欠である。
本稿では,SCAAのための新しいソースコード特徴抽出器であるAuthAttLyzer-V2について述べる。
論文 参考訳(メタデータ) (2024-06-28T13:04:16Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Creating a Trajectory for Code Writing: Algorithmic Reasoning Tasks [0.923607423080658]
本稿では,楽器とその検証に用いる機械学習モデルについて述べる。
我々は,学期最後の週に導入プログラミングコースで収集したデータを用いてきた。
先行研究は、ARTタイプの楽器を特定の機械学習モデルと組み合わせて効果的な学習軌道として機能させることができることを示唆している。
論文 参考訳(メタデータ) (2024-04-03T05:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。