論文の概要: CodeAttack: Code-Based Adversarial Attacks for Pre-trained Programming
Language Models
- arxiv url: http://arxiv.org/abs/2206.00052v3
- Date: Tue, 18 Apr 2023 22:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 18:18:38.700429
- Title: CodeAttack: Code-Based Adversarial Attacks for Pre-trained Programming
Language Models
- Title(参考訳): CodeAttack: 事前訓練されたプログラミング言語モデルに対するコードベースの逆攻撃
- Authors: Akshita Jha, and Chandan K. Reddy
- Abstract要約: 我々は、コード構造を用いて、効果的で効率的で、知覚不能なコードサンプルを生成する、単純で効果的なブラックボックス攻撃モデルであるCodeAttackを提案する。
プログラム言語間でのコード-コード(翻訳と修復)およびコード-NL(要約)タスクにおけるCodeAttackの転送性を評価する。
- 参考スコア(独自算出の注目度): 8.832864937330722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained programming language (PL) models (such as CodeT5, CodeBERT,
GraphCodeBERT, etc.,) have the potential to automate software engineering tasks
involving code understanding and code generation. However, these models operate
in the natural channel of code, i.e., they are primarily concerned with the
human understanding of the code. They are not robust to changes in the input
and thus, are potentially susceptible to adversarial attacks in the natural
channel. We propose, CodeAttack, a simple yet effective black-box attack model
that uses code structure to generate effective, efficient, and imperceptible
adversarial code samples and demonstrates the vulnerabilities of the
state-of-the-art PL models to code-specific adversarial attacks. We evaluate
the transferability of CodeAttack on several code-code (translation and repair)
and code-NL (summarization) tasks across different programming languages.
CodeAttack outperforms state-of-the-art adversarial NLP attack models to
achieve the best overall drop in performance while being more efficient,
imperceptible, consistent, and fluent. The code can be found at
https://github.com/reddy-lab-code-research/CodeAttack.
- Abstract(参考訳): 事前訓練されたプログラミング言語(PL)モデル(CodeT5、CodeBERT、GraphCodeBERTなど)は、コード理解とコード生成を含むソフトウェアエンジニアリングタスクを自動化する可能性がある。
しかしながら、これらのモデルは、コードの自然なチャネル、すなわち、主に人間のコード理解に関係している。
それらは入力の変化に頑健ではないため、自然チャネルにおける敵対的攻撃の影響を受けやすい。
我々は,コード構造を用いて,効率的かつ効果的かつ知覚不能なコードサンプルを生成するシンプルなブラックボックス攻撃モデルであるCodeAttackを提案し,コード固有の攻撃に対して,最先端のPLモデルの脆弱性を実証する。
プログラム言語間でのコード-コード(翻訳と修復)およびコード-NL(要約)タスクにおけるCodeAttackの転送性を評価する。
CodeAttackは、最先端の敵対的NLP攻撃モデルより優れており、より効率的で、認識不能で、一貫性があり、流動性がある。
コードはhttps://github.com/reddy-lab-code-research/codeattackにある。
関連論文リスト
- Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Adversarial Attacks on Code Models with Discriminative Graph Patterns [10.543744143786519]
我々は、コードモデルの堅牢性をよりよく評価するために、新しい敵攻撃フレームワーク、GraphCodeAttackを提案する。
ターゲットのコードモデルが与えられたら、GraphCodeAttackは自動的に重要なコードパターンをマイニングし、モデルの決定に影響を与える可能性がある。
ASTパターンからの攻撃を効果的に合成するために、GraphCodeAttackは、個別にトレーニング済みのコードモデルを使用して、具体的なコードスニペットでASTを埋める。
論文 参考訳(メタデータ) (2023-08-22T03:40:34Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。