Fugu-MT 論文翻訳(概要): RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding Style Transformation

論文の概要: RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding Style Transformation

arxiv url: http://arxiv.org/abs/2202.06043v1
Date: Sat, 12 Feb 2022 11:27:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-15 17:08:44.966351
Title: RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding Style Transformation
Title（参考訳）: RoPGen: 自動コーディングスタイル変換によるロバストなコードオーサリング属性の実現
Authors: Zhen Li, Guenevere (Qian) Chen, Chen Chen, Yayi Zou, Shouhuai Xu
Abstract要約: ソースコードのオーサシップの属性は、ソフトウェア鑑識、バグ修正、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。近年の研究では、現在のソースコードのオーサリング帰属法は、敵の例とコーディングスタイルの操作を悪用した攻撃者によって損なわれることが示されている。我々はロバスト符号化スタイルパターン生成(RoPGen)と呼ばれる革新的なフレームワークを提案する。 RoPGenは基本的に、攻撃者が操作したり模倣したりするのが難しい、作者独自のコーディングスタイルパターンを学習する。
参考スコア（独自算出の注目度）: 14.959517725033423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Source code authorship attribution is an important problem often encountered in applications such as software forensics, bug fixing, and software quality analysis. Recent studies show that current source code authorship attribution methods can be compromised by attackers exploiting adversarial examples and coding style manipulation. This calls for robust solutions to the problem of code authorship attribution. In this paper, we initiate the study on making Deep Learning (DL)-based code authorship attribution robust. We propose an innovative framework called Robust coding style Patterns Generation (RoPGen), which essentially learns authors' unique coding style patterns that are hard for attackers to manipulate or imitate. The key idea is to combine data augmentation and gradient augmentation at the adversarial training phase. This effectively increases the diversity of training examples, generates meaningful perturbations to gradients of deep neural networks, and learns diversified representations of coding styles. We evaluate the effectiveness of RoPGen using four datasets of programs written in C, C++, and Java. Experimental results show that RoPGen can significantly improve the robustness of DL-based code authorship attribution, by respectively reducing 22.8% and 41.0% of the success rate of targeted and untargeted attacks on average.
Abstract（参考訳）: ソースコードのオーサシップの帰属は、ソフトウェア検査、バグフィックス、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。最近の研究では、現在のソースコードオーサシップの帰属方法が、敵の例やコーディングスタイル操作を悪用する攻撃者によって危険に晒されることが示されている。これにより、コードオーサシップの帰属問題に対する堅牢なソリューションが要求される。本稿では,Deep Learning(DL)に基づくコードオーサシップのロバスト化に関する研究を開始する。ロバストコーディングスタイルパターン生成(ropgen: robust coding style patterns generation)と呼ばれる革新的なフレームワークを提案する。鍵となるアイデアは、逆行訓練フェーズにおけるデータ強化と勾配増強を組み合わせることだ。これにより、トレーニング例の多様性を効果的に増加させ、ディープニューラルネットワークの勾配に対する有意義な摂動を生成し、コーディングスタイルの多様化表現を学ぶ。 C、C++、Javaで書かれたプログラムの4つのデータセットを用いてRoPGenの有効性を評価する。実験の結果、ropgenはdlベースのコードオーサシップ属性のロバスト性を大幅に向上し、目標攻撃と目標攻撃の成功率の22.8%と41.0%をそれぞれ削減できることが示されている。

関連論文リスト

Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文参考訳（メタデータ） (2026-01-09T02:38:24Z)
Reassessing Code Authorship Attribution in the Era of Language Models [12.590406993068523]
本研究の目的は,コードサンプルの作成者を特定するためのコーディングスタイルの分析である。コードオーサシップ・アトリビューション(CAA)は、サイバーセキュリティとソフトウェアにおいて、盗作行為に対処し、検出し、刑事訴追をサポートするために不可欠である。
論文参考訳（メタデータ） (2025-06-20T16:19:30Z)
Towards A Generalist Code Embedding Model Based On Massive Data Synthesis [35.04242699869519]
汎用コード検索のための最先端の埋め込みモデルである textbfCodeR (underlineCode underlineRetrieval) を導入する。 CodeRの優れたパフォーマンスは、DRU原則に基づいて構築された大規模な合成データセットであるCodeR-Pile上に構築されている。
論文参考訳（メタデータ） (2025-05-19T04:37:53Z)
Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文参考訳（メタデータ） (2025-02-24T13:03:19Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset [0.0]
Source Code Authorship Attribution (SCAA)は、ソフトウェアの起源と振舞いに関する洞察を提供するため、ソフトウェア分類に不可欠である。本稿では,SCAAのための新しいソースコード特徴抽出器であるAuthAttLyzer-V2について述べる。
論文参考訳（メタデータ） (2024-06-28T13:04:16Z)
ChatGPT Code Detection: Techniques for Uncovering the Source of Code [0.0]
高度な分類技術を用いて、人間によって書かれたコードとChatGPTによって生成されたコードとを区別する。我々は、強力な埋め込み機能(ブラックボックス)と教師付き学習アルゴリズムを組み合わせた新しいアプローチを採用する。トレーニングされていない人間は、ランダムな推測よりも、同じタスクを解くことが示される。
論文参考訳（メタデータ） (2024-05-24T12:56:18Z)
Improving Robustness to Model Inversion Attacks via Sparse Coding Architectures [4.962316236417777]
最近のモデル反転攻撃アルゴリズムでは、ニューラルネットワークのプライベートかつ潜在的に敏感なトレーニングデータを繰り返しクエリすることで、敵が再構築することができる。我々は,このタイプの攻撃に対して優れたロバスト性を得るために,スパースコーディング層を利用する新しいネットワークアーキテクチャを開発した。
論文参考訳（メタデータ） (2024-03-21T18:26:23Z)
Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文参考訳（メタデータ） (2024-03-17T16:36:26Z)
CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文参考訳（メタデータ） (2023-06-05T20:39:08Z)
Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文参考訳（メタデータ） (2023-05-30T01:38:54Z)
An Unbiased Transformer Source Code Learning with Semantic Vulnerability Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文参考訳（メタデータ） (2023-04-17T20:54:14Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。