論文の概要: RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding
Style Transformation
- arxiv url: http://arxiv.org/abs/2202.06043v1
- Date: Sat, 12 Feb 2022 11:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:08:44.966351
- Title: RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding
Style Transformation
- Title(参考訳): RoPGen: 自動コーディングスタイル変換によるロバストなコードオーサリング属性の実現
- Authors: Zhen Li, Guenevere (Qian) Chen, Chen Chen, Yayi Zou, Shouhuai Xu
- Abstract要約: ソースコードのオーサシップの属性は、ソフトウェア鑑識、バグ修正、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。
近年の研究では、現在のソースコードのオーサリング帰属法は、敵の例とコーディングスタイルの操作を悪用した攻撃者によって損なわれることが示されている。
我々はロバスト符号化スタイルパターン生成(RoPGen)と呼ばれる革新的なフレームワークを提案する。
RoPGenは基本的に、攻撃者が操作したり模倣したりするのが難しい、作者独自のコーディングスタイルパターンを学習する。
- 参考スコア(独自算出の注目度): 14.959517725033423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code authorship attribution is an important problem often encountered
in applications such as software forensics, bug fixing, and software quality
analysis. Recent studies show that current source code authorship attribution
methods can be compromised by attackers exploiting adversarial examples and
coding style manipulation. This calls for robust solutions to the problem of
code authorship attribution. In this paper, we initiate the study on making
Deep Learning (DL)-based code authorship attribution robust. We propose an
innovative framework called Robust coding style Patterns Generation (RoPGen),
which essentially learns authors' unique coding style patterns that are hard
for attackers to manipulate or imitate. The key idea is to combine data
augmentation and gradient augmentation at the adversarial training phase. This
effectively increases the diversity of training examples, generates meaningful
perturbations to gradients of deep neural networks, and learns diversified
representations of coding styles. We evaluate the effectiveness of RoPGen using
four datasets of programs written in C, C++, and Java. Experimental results
show that RoPGen can significantly improve the robustness of DL-based code
authorship attribution, by respectively reducing 22.8% and 41.0% of the success
rate of targeted and untargeted attacks on average.
- Abstract(参考訳): ソースコードのオーサシップの帰属は、ソフトウェア検査、バグフィックス、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。
最近の研究では、現在のソースコードオーサシップの帰属方法が、敵の例やコーディングスタイル操作を悪用する攻撃者によって危険に晒されることが示されている。
これにより、コードオーサシップの帰属問題に対する堅牢なソリューションが要求される。
本稿では,Deep Learning(DL)に基づくコードオーサシップのロバスト化に関する研究を開始する。
ロバストコーディングスタイルパターン生成(ropgen: robust coding style patterns generation)と呼ばれる革新的なフレームワークを提案する。
鍵となるアイデアは、逆行訓練フェーズにおけるデータ強化と勾配増強を組み合わせることだ。
これにより、トレーニング例の多様性を効果的に増加させ、ディープニューラルネットワークの勾配に対する有意義な摂動を生成し、コーディングスタイルの多様化表現を学ぶ。
C、C++、Javaで書かれたプログラムの4つのデータセットを用いてRoPGenの有効性を評価する。
実験の結果、ropgenはdlベースのコードオーサシップ属性のロバスト性を大幅に向上し、目標攻撃と目標攻撃の成功率の22.8%と41.0%をそれぞれ削減できることが示されている。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset [0.0]
Source Code Authorship Attribution (SCAA)は、ソフトウェアの起源と振舞いに関する洞察を提供するため、ソフトウェア分類に不可欠である。
本稿では,SCAAのための新しいソースコード特徴抽出器であるAuthAttLyzer-V2について述べる。
論文 参考訳(メタデータ) (2024-06-28T13:04:16Z) - ChatGPT Code Detection: Techniques for Uncovering the Source of Code [0.0]
高度な分類技術を用いて、人間によって書かれたコードとChatGPTによって生成されたコードとを区別する。
我々は、強力な埋め込み機能(ブラックボックス)と教師付き学習アルゴリズムを組み合わせた新しいアプローチを採用する。
トレーニングされていない人間は、ランダムな推測よりも、同じタスクを解くことが示される。
論文 参考訳(メタデータ) (2024-05-24T12:56:18Z) - Improving Robustness to Model Inversion Attacks via Sparse Coding Architectures [4.962316236417777]
最近のモデル反転攻撃アルゴリズムでは、ニューラルネットワークのプライベートかつ潜在的に敏感なトレーニングデータを繰り返しクエリすることで、敵が再構築することができる。
我々は,このタイプの攻撃に対して優れたロバスト性を得るために,スパースコーディング層を利用する新しいネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-03-21T18:26:23Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。