論文の概要: Enhancing Robustness of AI Offensive Code Generators via Data
Augmentation
- arxiv url: http://arxiv.org/abs/2306.05079v2
- Date: Sun, 1 Oct 2023 13:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:11:57.400744
- Title: Enhancing Robustness of AI Offensive Code Generators via Data
Augmentation
- Title(参考訳): データ拡張によるAI攻撃コードジェネレータのロバスト性向上
- Authors: Cristina Improta, Pietro Liguori, Roberto Natella, Bojan Cukic and
Domenico Cotroneo
- Abstract要約: 自然言語(NL)における新しい入力を生成するために、コード記述に摂動を加える方法を提案する。
目標は、セキュリティ指向コードのコンテキストにおいて、AIコードジェネレータのパフォーマンスにどの程度の摂動がどの程度影響するかを分析することである。
- 参考スコア(独自算出の注目度): 10.006772288191875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present a method to add perturbations to the code
descriptions to create new inputs in natural language (NL) from
well-intentioned developers that diverge from the original ones due to the use
of new words or because they miss part of them. The goal is to analyze how and
to what extent perturbations affect the performance of AI code generators in
the context of security-oriented code. First, we show that perturbed
descriptions preserve the semantics of the original, non-perturbed ones. Then,
we use the method to assess the robustness of three state-of-the-art code
generators against the newly perturbed inputs, showing that the performance of
these AI-based solutions is highly affected by perturbations in the NL
descriptions. To enhance their robustness, we use the method to perform data
augmentation, i.e., to increase the variability and diversity of the NL
descriptions in the training data, proving its effectiveness against both
perturbed and non-perturbed code descriptions.
- Abstract(参考訳): 本稿では,自然言語(nl)に新たな入力を生成するためのコード記述に摂動を追加する手法を提案する。
目標は、セキュリティ指向のコードのコンテキストにおけるaiコードジェネレータのパフォーマンスにどの程度の摂動が影響するかを分析することである。
まず,摂動記述が本来の摂動記述のセマンティクスを保っていることを示す。
そして,この手法を用いて,新たな摂動入力に対する3つの最先端コードジェネレータの堅牢性を評価し,これらのAIベースのソリューションの性能がNL記述の摂動の影響を強く受けていることを示す。
そのロバスト性を高めるために、トレーニングデータ中のnl記述の変動性と多様性を高めるために、データ拡張を行う方法を使い、摂動コード記述と非摂動コード記述の両方に対して有効性を証明する。
関連論文リスト
- An Effective Mixture-Of-Experts Approach For Code-Switching Speech
Recognition Leveraging Encoder Disentanglement [9.28943772676672]
コードスイッチング現象は、自動音声認識を妨げる大きな障害である。
エンコーダの下層層が言語間音響情報を捕捉できるようにするために, 新たなアンタングルメント損失を導入する。
提案手法は,事前訓練されたデュアルエンコーダを用いた先行技術よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-02-27T04:08:59Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。
テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。
LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-01-30T17:34:43Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Retrieval-guided Counterfactual Generation for QA [5.434621727606356]
質問応答のための偽物作成の課題に焦点をあてる。
本研究では,逆実効評価とトレーニングデータを作成するRetrieve-Generate-Filter手法を開発した。
RGFデータは局所摂動に対するモデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-14T17:56:37Z) - Attention Is Indeed All You Need: Semantically Attention-Guided Decoding
for Data-to-Text NLG [0.913755431537592]
本稿では,エンコーダ・デコーダモデルのクロスアテンションから解釈可能な情報を抽出する新しい復号法を提案する。
生成した出力のセマンティックエラーを劇的に低減する3つのデータセットを示す。
論文 参考訳(メタデータ) (2021-09-15T01:42:51Z) - Autoregressive Belief Propagation for Decoding Block Codes [113.38181979662288]
誤り訂正符号の復号化にグラフニューラルネットワークを用いた最近の手法を再検討する。
本手法は,他手法がゼロワードでのみ学習できる対称性条件に反する。
1つの単語でトレーニングする余地がなく、関連するサンプル空間のごく一部でトレーニングできないにもかかわらず、効果的なトレーニングを実演する。
論文 参考訳(メタデータ) (2021-01-23T17:14:55Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。