論文の概要: How Important are Good Method Names in Neural Code Generation? A Model
Robustness Perspective
- arxiv url: http://arxiv.org/abs/2211.15844v2
- Date: Sun, 30 Jul 2023 12:21:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 14:09:21.060996
- Title: How Important are Good Method Names in Neural Code Generation? A Model
Robustness Perspective
- Title(参考訳): ニューラルコード生成における良いメソッド名はどの程度重要か?
モデルロバスト性の観点から
- Authors: Guang Yang, Yu Zhou, Wenhua Yang, Tao Yue, Xiang Chen, Taolue Chen
- Abstract要約: 本研究は,PCGMの性能向上のために,手法名から利益を得る可能性について検討し,実証する。
我々はRADAR(neural coDe generAtor Robustifier)という新しいアプローチを提案する。
RADAR-Attackは、3つの最先端PCGMにおいて、生成されたコードのコードBLEUを19.72%減らして38.74%に減らすことができる。
- 参考スコア(独自算出の注目度): 14.453427809903424
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained code generation models (PCGMs) have been widely applied in neural
code generation which can generate executable code from functional descriptions
in natural languages, possibly together with signatures. Despite substantial
performance improvement of PCGMs, the role of method names in neural code
generation has not been thoroughly investigated. In this paper, we study and
demonstrate the potential of benefiting from method names to enhance the
performance of PCGMs, from a model robustness perspective. Specifically, we
propose a novel approach, named RADAR (neuRAl coDe generAtor Robustifier).
RADAR consists of two components: RADAR-Attack and RADAR-Defense. The former
attacks a PCGM by generating adversarial method names as part of the input,
which are semantic and visual similar to the original input, but may trick the
PCGM to generate completely unrelated code snippets. As a countermeasure to
such attacks, RADAR-Defense synthesizes a new method name from the functional
description and supplies it to the PCGM. Evaluation results show that
RADAR-Attack can reduce the CodeBLEU of generated code by 19.72% to 38.74% in
three state-of-the-art PCGMs (i.e., CodeGPT, PLBART, and CodeT5) in the
fine-tuning code generation task, and reduce the Pass@1 of generated code by
32.28% to 44.42% in three state-of-the-art PCGMs (i.e., Replit, CodeGen, and
CodeT5+) in the zero-shot code generation task. Moreover, RADAR-Defense is able
to reinstate the performance of PCGMs with synthesized method names. These
results highlight the importance of good method names in neural code generation
and implicate the benefits of studying model robustness in software
engineering.
- Abstract(参考訳): プレトレーニングコード生成モデル(pcgms)は、自然言語の関数記述から、おそらくシグネチャとともに実行可能なコードを生成するニューラルネットワーク生成に広く適用されている。
PCGMの大幅な性能向上にもかかわらず、ニューラルコード生成におけるメソッド名の役割は十分に研究されていない。
本稿では,モデルロバストネスの観点から,PCGMの性能向上のための手法名によるメリットの可能性について検討し,実証する。
具体的には,RADAR (neural coDe generAtor Robustifier) という新しいアプローチを提案する。
RADARはRADAR-AttackとRADAR-Defenseの2つのコンポーネントで構成されている。
前者は、入力の一部として逆メソッド名を生成することでPCGMを攻撃し、元の入力と似た意味と視覚を持つが、PCGMを騙して全く無関係なコードスニペットを生成する。
このような攻撃に対する対策として、RADAR-Defenseは機能記述から新しいメソッド名を合成し、PCGMに供給する。
評価の結果、RADAR-Attackは3つの最先端PCGM(CodeGPT、PLBART、CodeT5)で生成したコードのコードBLEUを19.72%から38.74%削減し、ゼロショットコード生成タスクでは3つの最先端PCGM(Replit、CodeGen、CodeT5+)で生成したコードのPass@1を32.28%から44.42%削減できることがわかった。
さらに、RADAR-Defenseは、合成されたメソッド名でPCGMの性能を回復することができる。
これらの結果は、ニューラルコード生成における優れたメソッド名の重要性を強調し、ソフトウェア工学におけるモデル堅牢性の研究のメリットを示唆している。
関連論文リスト
- Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Source Code Vulnerability Detection: Combining Code Language Models and Code Property Graphs [5.953617559607503]
Vul-LMGNNは、事前訓練されたコード言語モデルとコードプロパティグラフを組み合わせた統一モデルである。
Vul-LMGNNは、様々なコード属性を統一的なグラフ構造に統合するコードプロパティグラフを構築する。
属性間の依存性情報を効果的に保持するために,ゲートコードグラフニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-04-23T03:48:18Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Importance Guided Data Augmentation for Neural-Based Code Understanding [29.69495788091569]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを紹介した。
最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文 参考訳(メタデータ) (2024-02-24T08:57:12Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary [18.05110624825475]
逆コンパイルにおける顕著な課題は、変数名を復元することである。
本稿では,モデルバイアスと潜在的幻覚を緩和しながら生成モデルの強みを利用する新しい手法を提案する。
我々は、事前訓練された生成モデルCodeGemma-2BとCodeLlama-7BのプロトタイプGenNmを構築した。
論文 参考訳(メタデータ) (2023-06-05T02:39:48Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Pointing to Subwords for Generating Function Names in Source Code [43.36314933559263]
入力に低頻度または外語彙のサブワードをコピーする2つの方法を提案する。
改良型F1では,従来の手法よりも改善が見られた。
論文 参考訳(メタデータ) (2020-11-09T08:17:17Z) - GeDi: Generative Discriminator Guided Sequence Generation [53.15651536569169]
本稿では,より小さなLMを生成的識別器として利用し,大規模なLMから生成を誘導する効率的な方法としてGeDiを提案する。
GeDiは最先端技術よりも制御性が強く,生成速度も30倍以上に向上することがわかった。
論文 参考訳(メタデータ) (2020-09-14T17:45:36Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。