Fugu-MT 論文翻訳(概要): Enhancing Robustness of AI Offensive Code Generators via Data Augmentation

論文の概要: Enhancing Robustness of AI Offensive Code Generators via Data Augmentation

arxiv url: http://arxiv.org/abs/2306.05079v2
Date: Sun, 1 Oct 2023 13:01:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:11:57.400744
Title: Enhancing Robustness of AI Offensive Code Generators via Data Augmentation
Title（参考訳）: データ拡張によるAI攻撃コードジェネレータのロバスト性向上
Authors: Cristina Improta, Pietro Liguori, Roberto Natella, Bojan Cukic and Domenico Cotroneo
Abstract要約: 自然言語(NL)における新しい入力を生成するために、コード記述に摂動を加える方法を提案する。目標は、セキュリティ指向コードのコンテキストにおいて、AIコードジェネレータのパフォーマンスにどの程度の摂動がどの程度影響するかを分析することである。
参考スコア（独自算出の注目度）: 10.006772288191875
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we present a method to add perturbations to the code descriptions to create new inputs in natural language (NL) from well-intentioned developers that diverge from the original ones due to the use of new words or because they miss part of them. The goal is to analyze how and to what extent perturbations affect the performance of AI code generators in the context of security-oriented code. First, we show that perturbed descriptions preserve the semantics of the original, non-perturbed ones. Then, we use the method to assess the robustness of three state-of-the-art code generators against the newly perturbed inputs, showing that the performance of these AI-based solutions is highly affected by perturbations in the NL descriptions. To enhance their robustness, we use the method to perform data augmentation, i.e., to increase the variability and diversity of the NL descriptions in the training data, proving its effectiveness against both perturbed and non-perturbed code descriptions.
Abstract（参考訳）: 本稿では,自然言語(nl)に新たな入力を生成するためのコード記述に摂動を追加する手法を提案する。目標は、セキュリティ指向のコードのコンテキストにおけるaiコードジェネレータのパフォーマンスにどの程度の摂動が影響するかを分析することである。まず,摂動記述が本来の摂動記述のセマンティクスを保っていることを示す。そして,この手法を用いて,新たな摂動入力に対する3つの最先端コードジェネレータの堅牢性を評価し,これらのAIベースのソリューションの性能がNL記述の摂動の影響を強く受けていることを示す。そのロバスト性を高めるために、トレーニングデータ中のnl記述の変動性と多様性を高めるために、データ拡張を行う方法を使い、摂動コード記述と非摂動コード記述の両方に対して有効性を証明する。

関連論文リスト

High-quality data augmentation for code comment classification [0.48429188360918735]
コメントは自然言語であるため、マシンベースのコード理解の課題を提示している。このタスクの既存のデータセットはサイズ制限とクラス不均衡に悩まされている。我々は、NLBSE'26チャレンジデータセットを強化するために、高品質なデータ生成に基づく新しい合成オーバーサンプリングと拡張技術を導入する。
論文参考訳（メタデータ） (2026-01-27T09:14:56Z)
Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文参考訳（メタデータ） (2026-01-09T02:38:24Z)
Taught by the Flawed: How Dataset Insecurity Breeds Vulnerable AI Code [0.0]
アウトプットをセキュアにするための重要な要因は、大規模な言語モデルを構築するために使用されるトレーニングデータセットに脆弱性が存在することだ。静的解析ツールを用いて既存のPythonコーパスをフィルタリングしてセキュアなデータセットを構築し,脆弱性のない機能のみを保持する。以上の結果から,計算したデータセットでトレーニングしたモデルは,同等の機能的正しさを維持しつつ,より少ないセキュリティ問題でアウトプットを生成した。
論文参考訳（メタデータ） (2025-11-13T02:25:24Z)
Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文参考訳（メタデータ） (2025-10-27T04:02:52Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Improving Automated Secure Code Reviews: A Synthetic Dataset for Code Vulnerability Flaws [0.0]
本稿では,セキュリティ欠陥について特にコメントする脆弱性中心のレビューからなる合成データセットの作成を提案する。弊社のアプローチでは,Large Language Models(LLMs)を利用して,脆弱性に対する人間的なコードレビューコメントを生成する。
論文参考訳（メタデータ） (2025-04-22T23:07:24Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
Impact of Code Transformation on Detection of Smart Contract Vulnerabilities [0.0]
本稿では,スマートコントラクト脆弱性データセットの量と品質を改善する方法を提案する。このアプローチは、セマンティックな意味を変えることなくソースコード構造を変更するテクニックである、セマンティックな保存コード変換を中心に展開されている。改善された結果によると、新たに生成された脆弱性の多くはツールをバイパスでき、偽報告率は最大100%になる。
論文参考訳（メタデータ） (2024-10-29T03:08:25Z)
Enhancing AI-based Generation of Software Exploits with Contextual Information [9.327315119028809]
この研究では、実際のシェルコードからなるデータセットを使用して、さまざまなシナリオでモデルを評価する。実験は、不完全記述に対するモデルの弾力性、文脈を活用して精度を高める能力、無関係な情報を識別する能力を評価するように設計されている。モデルは不要なコンテキストをフィルタリングし、攻撃的なセキュリティコードの生成において高いレベルの精度を維持する能力を示している。
論文参考訳（メタデータ） (2024-08-05T11:52:34Z)
DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文参考訳（メタデータ） (2024-04-11T08:27:23Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文参考訳（メタデータ） (2024-02-22T14:19:56Z)
Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文参考訳（メタデータ） (2024-01-27T08:09:33Z)
LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。 GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文参考訳（メタデータ） (2024-01-07T02:46:39Z)
Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文参考訳（メタデータ） (2023-02-14T18:43:34Z)
CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。 COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。 COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文参考訳（メタデータ） (2022-10-10T17:45:38Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)
Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文参考訳（メタデータ） (2020-09-16T06:53:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。