論文の概要: LLMSecEval: A Dataset of Natural Language Prompts for Security
Evaluations
- arxiv url: http://arxiv.org/abs/2303.09384v1
- Date: Thu, 16 Mar 2023 15:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:04:41.842644
- Title: LLMSecEval: A Dataset of Natural Language Prompts for Security
Evaluations
- Title(参考訳): LLMSecEval: セキュリティ評価のための自然言語プロンプトのデータセット
- Authors: Catherine Tony, Markus Mutas, Nicol\'as E. D\'iaz Ferreyra and
Riccardo Scandariato
- Abstract要約: Codexのような大規模言語モデル(LLM)は、コード補完とコード生成タスクを実行する強力なツールである。
これらのモデルは、パブリックGitHubリポジトリから言語やプログラミングプラクティスを学ぶことによって、自然言語(NL)記述からコードスニペットを生成することができる。
LLMはNL駆動によるソフトウェアアプリケーションのデプロイを約束するが、それらが生成するコードのセキュリティは広く調査されておらず、文書化されていない。
- 参考スコア(独自算出の注目度): 4.276841620787673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) like Codex are powerful tools for performing
code completion and code generation tasks as they are trained on billions of
lines of code from publicly available sources. Moreover, these models are
capable of generating code snippets from Natural Language (NL) descriptions by
learning languages and programming practices from public GitHub repositories.
Although LLMs promise an effortless NL-driven deployment of software
applications, the security of the code they generate has not been extensively
investigated nor documented. In this work, we present LLMSecEval, a dataset
containing 150 NL prompts that can be leveraged for assessing the security
performance of such models. Such prompts are NL descriptions of code snippets
prone to various security vulnerabilities listed in MITRE's Top 25 Common
Weakness Enumeration (CWE) ranking. Each prompt in our dataset comes with a
secure implementation example to facilitate comparative evaluations against
code produced by LLMs. As a practical application, we show how LLMSecEval can
be used for evaluating the security of snippets automatically generated from NL
descriptions.
- Abstract(参考訳): Codexのような大規模言語モデル(LLM)は、公開されているソースから数十億行のコードでトレーニングされたコード補完とコード生成タスクを実行する強力なツールである。
さらに、これらのモデルは、パブリックGitHubリポジトリから言語やプログラミングプラクティスを学ぶことによって、自然言語(NL)記述からコードスニペットを生成することができる。
LLMはNL駆動によるソフトウェアアプリケーションのデプロイを約束するが、それらが生成するコードのセキュリティは広く調査されておらず、文書化されていない。
本稿では,このようなモデルのセキュリティ性能を評価するために,150個のnlプロンプトを含むデータセットllmsecevalを提案する。
このようなプロンプトは、MITREのTop 25 Common Weakness Enumeration (CWE)ランキングに記載されているさまざまなセキュリティ脆弱性に起因したコードスニペットのNL記述である。
データセットの各プロンプトには、LLMが生成したコードに対する比較評価を容易にするセキュアな実装例が付属しています。
実用アプリケーションとして,NL記述から自動生成されるスニペットのセキュリティ評価にLLMSecEvalをどのように利用できるかを示す。
関連論文リスト
- LEVER: Learning to Verify Language-to-Code Generation with Execution [43.11241361642869]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には,言語入力やプログラム自体,実行結果に基づいて,CodeLMからサンプリングしたプログラムが正しいか否かを判定する検証器を訓練する。
LEVERは、基礎となるCodeLM(4.6%から10.9%)を継続的に改善し、これらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [78.9752616934056]
コード生成のための自動評価指標であるCodeBERTScoreを提案する。
BLEUとして正確なトークンマッチングを測定する代わりに、CodeBERTScoreは、生成されたコードと参照コードにおける各トークン間のソフトな類似度スコアを計算する。
CodeBERTScoreは、既存のすべてのメトリクスよりも、人間の好みと機能の正しさとの相関性が高い。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Asking Clarification Questions for Code Generation in General-Purpose
Programming Language [57.63906360576212]
テキストからのコード生成には、自然言語記述(NLD)からユーザの意図を理解する必要がある
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、NLDの仕様の曖昧さは、明確化問題(CQ)を問うことによって解決されると仮定する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
10以上のプログラミング言語で実行ベースのコード補完ベンチマークであるMBXPを提案する。
このデータセットのコレクションは変換フレームワークによって生成され、プロンプトとテストケースを元のMBPPデータセットからターゲット言語の対応するデータに変換する。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - An Exploratory Study on Code Attention in BERT [8.488193857572211]
コード上でのPLMの注意行動を調査し,それを自然言語と比較する。
BERT は NLP において最も注目されているトークンとは対照的に,特に識別子やセパレータといった構文上のエンティティに注意を払っている。
この発見は、NLPで使われる一般的な埋め込みを使わずに、コード固有の表現を使用することで、研究コミュニティの恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-04-05T21:23:10Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Can We Generate Shellcodes via Natural Language? An Empirical Study [4.82810058837951]
本稿では,ニューラルネットワークを用いたシェルコードの自動生成手法を提案する。
Shellcode_IA32は、実際のLinux/x86シェルコードの3,200のアセンブリコードスニペットで構成されている。
我々は,NMTが自然言語からアセンブリコードスニペットを高い精度で生成できることを示し,多くの場合,誤りのないシェルコード全体を生成可能であることを示した。
論文 参考訳(メタデータ) (2022-02-08T09:57:34Z) - Can OpenAI Codex and Other Large Language Models Help Us Fix Security
Bugs? [8.285068188878578]
コード修復における大規模言語モデル (LLM) の利用について検討する。
安全でないコードの修正版を生成するためにLLMをコークスするプロンプトを設計する際の課題について検討する。
実験の結果、LLMは人工的に生成されたシナリオと手作りのシナリオの100%をまとめて修復できることがわかった。
論文 参考訳(メタデータ) (2021-12-03T19:15:02Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。