Fugu-MT 論文翻訳(概要): AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset

論文の概要: AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset

arxiv url: http://arxiv.org/abs/2406.19896v1
Date: Fri, 28 Jun 2024 13:04:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 16:50:10.505857
Title: AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset
Title（参考訳）: AuthAttLyzer-V2: 強化されたアンサンブル学習モデルによるコードオーサリング属性の公開とベンチマークデータセットの生成
Authors: Bhaskar Joshi, Sepideh HajiHossein Khani, Arash HabibiLashkari,
Abstract要約: Source Code Authorship Attribution (SCAA)は、ソフトウェアの起源と振舞いに関する洞察を提供するため、ソフトウェア分類に不可欠である。本稿では,SCAAのための新しいソースコード特徴抽出器であるAuthAttLyzer-V2について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Source Code Authorship Attribution (SCAA) is crucial for software classification because it provides insights into the origin and behavior of software. By accurately identifying the author or group behind a piece of code, experts can better understand the motivations and techniques of developers. In the cybersecurity era, this attribution helps trace the source of malicious software, identify patterns in the code that may indicate specific threat actors or groups, and ultimately enhance threat intelligence and mitigation strategies. This paper presents AuthAttLyzer-V2, a new source code feature extractor for SCAA, focusing on lexical, semantic, syntactic, and N-gram features. Our research explores author identification in C++ by examining 24,000 source code samples from 3,000 authors. Our methodology integrates Random Forest, Gradient Boosting, and XGBoost models, enhanced with SHAP for interpretability. The study demonstrates how ensemble models can effectively discern individual coding styles, offering insights into the unique attributes of code authorship. This approach is pivotal in understanding and interpreting complex patterns in authorship attribution, especially for malware classification.
Abstract（参考訳）: Source Code Authorship Attribution (SCAA)は、ソフトウェアの起源と振舞いに関する洞察を提供するため、ソフトウェア分類に不可欠である。コードの背後にある著者やグループを正確に特定することで、専門家は開発者のモチベーションやテクニックをよりよく理解することができます。サイバーセキュリティの時代において、この属性は悪意のあるソフトウェア源の追跡に役立ち、特定の脅威のアクターやグループを示すコード内のパターンを特定し、最終的に脅威の知性と緩和戦略を強化する。本稿では,SCAAのための新しいソースコード特徴抽出器であるAuthAttLyzer-V2について述べる。そこで本研究では,3,000名の著者から24,000名のソースコードサンプルを検索し,C++の作者識別について検討した。本手法は,SHAPで拡張したランダムフォレスト,グラディエントブースティング,XGBoostモデルを統合する。この研究は、アンサンブルモデルが個々のコーディングスタイルを効果的に識別し、コードオーサシップのユニークな属性に関する洞察を提供する方法を示している。このアプローチは、特にマルウェア分類において、著者帰属における複雑なパターンの理解と解釈において重要である。

関連論文リスト

Code Fingerprints: Disentangled Attribution of LLM-Generated Code [7.515488307576106]
生成したコードに責任を負うソースLLMを決定することを目的とした,モデルレベルのコード属性の問題について検討する。本稿では、ソース非依存のセマンティック情報とソース-特異なスタイル表現を分離するDisentangled Code Attribution Network (DCAN)を提案する。 4つのプログラミング言語で広く使われている4つの大規模言語モデル(LLM)が生成するコードからなる,最初の大規模ベンチマークデータセットを構築した。
論文参考訳（メタデータ） (2026-03-04T15:58:36Z)
Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文参考訳（メタデータ） (2025-10-20T17:53:23Z)
Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文参考訳（メタデータ） (2025-10-02T06:25:10Z)
Reassessing Code Authorship Attribution in the Era of Language Models [12.590406993068523]
本研究の目的は,コードサンプルの作成者を特定するためのコーディングスタイルの分析である。コードオーサシップ・アトリビューション(CAA)は、サイバーセキュリティとソフトウェアにおいて、盗作行為に対処し、検出し、刑事訴追をサポートするために不可欠である。
論文参考訳（メタデータ） (2025-06-20T16:19:30Z)
The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文参考訳（メタデータ） (2025-04-14T14:11:26Z)
LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文参考訳（メタデータ） (2025-03-31T04:47:05Z)
An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文参考訳（メタデータ） (2024-11-06T22:48:18Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文参考訳（メタデータ） (2024-03-17T16:36:26Z)
Enhancing Source Code Representations for Deep Learning with Static Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文参考訳（メタデータ） (2024-02-14T20:17:04Z)
JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文参考訳（メタデータ） (2024-02-13T19:54:29Z)
Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文参考訳（メタデータ） (2024-01-12T09:15:20Z)
Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-07-30T12:47:32Z)
RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding Style Transformation [14.959517725033423]
ソースコードのオーサシップの属性は、ソフトウェア鑑識、バグ修正、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。近年の研究では、現在のソースコードのオーサリング帰属法は、敵の例とコーディングスタイルの操作を悪用した攻撃者によって損なわれることが示されている。我々はロバスト符号化スタイルパターン生成(RoPGen)と呼ばれる革新的なフレームワークを提案する。 RoPGenは基本的に、攻撃者が操作したり模倣したりするのが難しい、作者独自のコーディングスタイルパターンを学習する。
論文参考訳（メタデータ） (2022-02-12T11:27:32Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)
Learning to map source code to software vulnerability using code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文参考訳（メタデータ） (2020-06-15T16:05:27Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。