論文の概要: RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding
Style Transformation
- arxiv url: http://arxiv.org/abs/2202.06043v1
- Date: Sat, 12 Feb 2022 11:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:08:44.966351
- Title: RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding
Style Transformation
- Title(参考訳): RoPGen: 自動コーディングスタイル変換によるロバストなコードオーサリング属性の実現
- Authors: Zhen Li, Guenevere (Qian) Chen, Chen Chen, Yayi Zou, Shouhuai Xu
- Abstract要約: ソースコードのオーサシップの属性は、ソフトウェア鑑識、バグ修正、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。
近年の研究では、現在のソースコードのオーサリング帰属法は、敵の例とコーディングスタイルの操作を悪用した攻撃者によって損なわれることが示されている。
我々はロバスト符号化スタイルパターン生成(RoPGen)と呼ばれる革新的なフレームワークを提案する。
RoPGenは基本的に、攻撃者が操作したり模倣したりするのが難しい、作者独自のコーディングスタイルパターンを学習する。
- 参考スコア(独自算出の注目度): 14.959517725033423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code authorship attribution is an important problem often encountered
in applications such as software forensics, bug fixing, and software quality
analysis. Recent studies show that current source code authorship attribution
methods can be compromised by attackers exploiting adversarial examples and
coding style manipulation. This calls for robust solutions to the problem of
code authorship attribution. In this paper, we initiate the study on making
Deep Learning (DL)-based code authorship attribution robust. We propose an
innovative framework called Robust coding style Patterns Generation (RoPGen),
which essentially learns authors' unique coding style patterns that are hard
for attackers to manipulate or imitate. The key idea is to combine data
augmentation and gradient augmentation at the adversarial training phase. This
effectively increases the diversity of training examples, generates meaningful
perturbations to gradients of deep neural networks, and learns diversified
representations of coding styles. We evaluate the effectiveness of RoPGen using
four datasets of programs written in C, C++, and Java. Experimental results
show that RoPGen can significantly improve the robustness of DL-based code
authorship attribution, by respectively reducing 22.8% and 41.0% of the success
rate of targeted and untargeted attacks on average.
- Abstract(参考訳): ソースコードのオーサシップの帰属は、ソフトウェア検査、バグフィックス、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。
最近の研究では、現在のソースコードオーサシップの帰属方法が、敵の例やコーディングスタイル操作を悪用する攻撃者によって危険に晒されることが示されている。
これにより、コードオーサシップの帰属問題に対する堅牢なソリューションが要求される。
本稿では,Deep Learning(DL)に基づくコードオーサシップのロバスト化に関する研究を開始する。
ロバストコーディングスタイルパターン生成(ropgen: robust coding style patterns generation)と呼ばれる革新的なフレームワークを提案する。
鍵となるアイデアは、逆行訓練フェーズにおけるデータ強化と勾配増強を組み合わせることだ。
これにより、トレーニング例の多様性を効果的に増加させ、ディープニューラルネットワークの勾配に対する有意義な摂動を生成し、コーディングスタイルの多様化表現を学ぶ。
C、C++、Javaで書かれたプログラムの4つのデータセットを用いてRoPGenの有効性を評価する。
実験の結果、ropgenはdlベースのコードオーサシップ属性のロバスト性を大幅に向上し、目標攻撃と目標攻撃の成功率の22.8%と41.0%をそれぞれ削減できることが示されている。
関連論文リスト
- Bias Testing and Mitigation in LLM-based Code Generation [25.2052136310021]
本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
調査対象のモデルが生成するコード関数の20.29%から44.93%が偏りに敏感なタスクを扱う際に偏りがあることがわかった。
コード生成モデルのバイアスを軽減するため、我々は5つのバイアス軽減プロンプト戦略を評価する。
論文 参考訳(メタデータ) (2023-09-03T07:14:49Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Automatic Fault Detection for Deep Learning Programs Using Graph
Transformations [13.572917264310119]
ディープラーニングプログラムのためのモデルに基づく故障検出手法であるNeuraLintを提案する。
NeuraLintは、70.5%のリコールと100%の精度で、合成および実世界の両方の例の欠陥と設計上の問題を効果的に検出する。
提案するメタモデルはフィードフォワードニューラルネットワーク用に設計されているが、他のニューラルネットワークアーキテクチャをサポートするように拡張することができる。
論文 参考訳(メタデータ) (2021-05-17T18:06:11Z) - Non-Autoregressive Translation by Learning Target Categorical Codes [59.840510037250944]
本論文では,非回帰型復号法に潜在変数として暗黙的に分類符号を学習するCNATを提案する。
実験の結果,本モデルは機械翻訳タスクにおいて同等あるいは優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-03-21T14:12:34Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Semantic Robustness of Models of Source Code [44.08472936613909]
深層ニューラルネットワークは敵の例に弱い - 誤った予測をもたらす小さな入力摂動だ。
このような敵に頑健なモデルを学習するために、敵の訓練を行う方法を示す。
論文 参考訳(メタデータ) (2020-02-07T23:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。