論文の概要: Enhancing Robustness of AI Offensive Code Generators via Data Augmentation
- arxiv url: http://arxiv.org/abs/2306.05079v3
- Date: Sat, 19 Oct 2024 16:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 17:02:10.404423
- Title: Enhancing Robustness of AI Offensive Code Generators via Data Augmentation
- Title(参考訳): データ拡張によるAI攻撃コードジェネレータのロバスト性向上
- Authors: Cristina Improta, Pietro Liguori, Roberto Natella, Bojan Cukic, Domenico Cotroneo,
- Abstract要約: 本稿では,自然言語で新しい入力を生成するために,コード記述に摂動を加える手法を提案する。
目標は、攻撃的コードのコンテキストにおいて、AIコードジェネレータのパフォーマンスにどの程度の摂動がどの程度影響するかを分析することである。
- 参考スコア(独自算出の注目度): 9.327315119028809
- License:
- Abstract: Since manually writing software exploits for offensive security is time-consuming and requires expert knowledge, AI-base code generators are an attractive solution to enhance security analysts' productivity by automatically crafting exploits for security testing. However, the variability in the natural language and technical skills used to describe offensive code poses unique challenges to their robustness and applicability. In this work, we present a method to add perturbations to the code descriptions to create new inputs in natural language (NL) from well-intentioned developers that diverge from the original ones due to the use of new words or because they miss part of them. The goal is to analyze how and to what extent perturbations affect the performance of AI code generators in the context of offensive code. First, we show that perturbed descriptions preserve the semantics of the original, non-perturbed ones. Then, we use the method to assess the robustness of three state-of-the-art code generators against the newly perturbed inputs, showing that the performance of these AI-based solutions is highly affected by perturbations in the NL descriptions. To enhance their robustness, we use the method to perform data augmentation, i.e., to increase the variability and diversity of the NL descriptions in the training data, proving its effectiveness against both perturbed and non-perturbed code descriptions.
- Abstract(参考訳): 攻撃的セキュリティのためのソフトウェアエクスプロイトを手作業で記述するのは時間を要するため、専門家の知識を必要とするため、AIベースのコードジェネレータは、セキュリティテスト用のエクスプロイトを自動的に作成することにより、セキュリティアナリストの生産性を高める魅力的なソリューションである。
しかし、攻撃的なコードを記述するのに使用される自然言語の多様性と技術的なスキルは、その堅牢性と適用性に固有の課題をもたらしている。
本研究では,コード記述に摂動を加えて自然言語で新しい入力(NL)を生成する手法を提案する。
目標は、攻撃的コードのコンテキストにおいて、AIコードジェネレータのパフォーマンスにどの程度の摂動がどの程度影響するかを分析することである。
まず、摂動記述が本来の非摂動記述の意味を保っていることを示す。
そして,この手法を用いて,新たな摂動入力に対する3つの最先端コード生成装置のロバスト性を評価し,これらのAIベースのソリューションの性能がNL記述の摂動の影響を強く受けていることを示す。
これらのロバスト性を高めるため、トレーニングデータにおけるNL記述の多様性と多様性を高めるために、この手法を用いて、摂動コード記述と非摂動コード記述の両方に対する有効性を証明した。
関連論文リスト
- An Effective Mixture-Of-Experts Approach For Code-Switching Speech
Recognition Leveraging Encoder Disentanglement [9.28943772676672]
コードスイッチング現象は、自動音声認識を妨げる大きな障害である。
エンコーダの下層層が言語間音響情報を捕捉できるようにするために, 新たなアンタングルメント損失を導入する。
提案手法は,事前訓練されたデュアルエンコーダを用いた先行技術よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-02-27T04:08:59Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。
テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。
LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-01-30T17:34:43Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Retrieval-guided Counterfactual Generation for QA [5.434621727606356]
質問応答のための偽物作成の課題に焦点をあてる。
本研究では,逆実効評価とトレーニングデータを作成するRetrieve-Generate-Filter手法を開発した。
RGFデータは局所摂動に対するモデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-14T17:56:37Z) - Attention Is Indeed All You Need: Semantically Attention-Guided Decoding
for Data-to-Text NLG [0.913755431537592]
本稿では,エンコーダ・デコーダモデルのクロスアテンションから解釈可能な情報を抽出する新しい復号法を提案する。
生成した出力のセマンティックエラーを劇的に低減する3つのデータセットを示す。
論文 参考訳(メタデータ) (2021-09-15T01:42:51Z) - Autoregressive Belief Propagation for Decoding Block Codes [113.38181979662288]
誤り訂正符号の復号化にグラフニューラルネットワークを用いた最近の手法を再検討する。
本手法は,他手法がゼロワードでのみ学習できる対称性条件に反する。
1つの単語でトレーニングする余地がなく、関連するサンプル空間のごく一部でトレーニングできないにもかかわらず、効果的なトレーニングを実演する。
論文 参考訳(メタデータ) (2021-01-23T17:14:55Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。