論文の概要: AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2406.19896v1
- Date: Fri, 28 Jun 2024 13:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:50:10.505857
- Title: AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset
- Title(参考訳): AuthAttLyzer-V2: 強化されたアンサンブル学習モデルによるコードオーサリング属性の公開とベンチマークデータセットの生成
- Authors: Bhaskar Joshi, Sepideh HajiHossein Khani, Arash HabibiLashkari,
- Abstract要約: Source Code Authorship Attribution (SCAA)は、ソフトウェアの起源と振舞いに関する洞察を提供するため、ソフトウェア分類に不可欠である。
本稿では,SCAAのための新しいソースコード特徴抽出器であるAuthAttLyzer-V2について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Source Code Authorship Attribution (SCAA) is crucial for software classification because it provides insights into the origin and behavior of software. By accurately identifying the author or group behind a piece of code, experts can better understand the motivations and techniques of developers. In the cybersecurity era, this attribution helps trace the source of malicious software, identify patterns in the code that may indicate specific threat actors or groups, and ultimately enhance threat intelligence and mitigation strategies. This paper presents AuthAttLyzer-V2, a new source code feature extractor for SCAA, focusing on lexical, semantic, syntactic, and N-gram features. Our research explores author identification in C++ by examining 24,000 source code samples from 3,000 authors. Our methodology integrates Random Forest, Gradient Boosting, and XGBoost models, enhanced with SHAP for interpretability. The study demonstrates how ensemble models can effectively discern individual coding styles, offering insights into the unique attributes of code authorship. This approach is pivotal in understanding and interpreting complex patterns in authorship attribution, especially for malware classification.
- Abstract(参考訳): Source Code Authorship Attribution (SCAA)は、ソフトウェアの起源と振舞いに関する洞察を提供するため、ソフトウェア分類に不可欠である。
コードの背後にある著者やグループを正確に特定することで、専門家は開発者のモチベーションやテクニックをよりよく理解することができます。
サイバーセキュリティの時代において、この属性は悪意のあるソフトウェア源の追跡に役立ち、特定の脅威のアクターやグループを示すコード内のパターンを特定し、最終的に脅威の知性と緩和戦略を強化する。
本稿では,SCAAのための新しいソースコード特徴抽出器であるAuthAttLyzer-V2について述べる。
そこで本研究では,3,000名の著者から24,000名のソースコードサンプルを検索し,C++の作者識別について検討した。
本手法は,SHAPで拡張したランダムフォレスト,グラディエントブースティング,XGBoostモデルを統合する。
この研究は、アンサンブルモデルが個々のコーディングスタイルを効果的に識別し、コードオーサシップのユニークな属性に関する洞察を提供する方法を示している。
このアプローチは、特にマルウェア分類において、著者帰属における複雑なパターンの理解と解釈において重要である。
関連論文リスト
- An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。
本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。
本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-07-30T12:47:32Z) - RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding
Style Transformation [14.959517725033423]
ソースコードのオーサシップの属性は、ソフトウェア鑑識、バグ修正、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。
近年の研究では、現在のソースコードのオーサリング帰属法は、敵の例とコーディングスタイルの操作を悪用した攻撃者によって損なわれることが示されている。
我々はロバスト符号化スタイルパターン生成(RoPGen)と呼ばれる革新的なフレームワークを提案する。
RoPGenは基本的に、攻撃者が操作したり模倣したりするのが難しい、作者独自のコーディングスタイルパターンを学習する。
論文 参考訳(メタデータ) (2022-02-12T11:27:32Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。