Fugu-MT 論文翻訳(概要): LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations

論文の概要: LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations

arxiv url: http://arxiv.org/abs/2303.09384v1
Date: Thu, 16 Mar 2023 15:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 15:04:41.842644
Title: LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations
Title（参考訳）: LLMSecEval: セキュリティ評価のための自然言語プロンプトのデータセット
Authors: Catherine Tony, Markus Mutas, Nicol\'as E. D\'iaz Ferreyra and Riccardo Scandariato
Abstract要約: Codexのような大規模言語モデル(LLM)は、コード補完とコード生成タスクを実行する強力なツールである。これらのモデルは、パブリックGitHubリポジトリから言語やプログラミングプラクティスを学ぶことによって、自然言語(NL)記述からコードスニペットを生成することができる。 LLMはNL駆動によるソフトウェアアプリケーションのデプロイを約束するが、それらが生成するコードのセキュリティは広く調査されておらず、文書化されていない。
参考スコア（独自算出の注目度）: 4.276841620787673
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) like Codex are powerful tools for performing code completion and code generation tasks as they are trained on billions of lines of code from publicly available sources. Moreover, these models are capable of generating code snippets from Natural Language (NL) descriptions by learning languages and programming practices from public GitHub repositories. Although LLMs promise an effortless NL-driven deployment of software applications, the security of the code they generate has not been extensively investigated nor documented. In this work, we present LLMSecEval, a dataset containing 150 NL prompts that can be leveraged for assessing the security performance of such models. Such prompts are NL descriptions of code snippets prone to various security vulnerabilities listed in MITRE's Top 25 Common Weakness Enumeration (CWE) ranking. Each prompt in our dataset comes with a secure implementation example to facilitate comparative evaluations against code produced by LLMs. As a practical application, we show how LLMSecEval can be used for evaluating the security of snippets automatically generated from NL descriptions.
Abstract（参考訳）: Codexのような大規模言語モデル(LLM)は、公開されているソースから数十億行のコードでトレーニングされたコード補完とコード生成タスクを実行する強力なツールである。さらに、これらのモデルは、パブリックGitHubリポジトリから言語やプログラミングプラクティスを学ぶことによって、自然言語(NL)記述からコードスニペットを生成することができる。 LLMはNL駆動によるソフトウェアアプリケーションのデプロイを約束するが、それらが生成するコードのセキュリティは広く調査されておらず、文書化されていない。本稿では,このようなモデルのセキュリティ性能を評価するために,150個のnlプロンプトを含むデータセットllmsecevalを提案する。このようなプロンプトは、MITREのTop 25 Common Weakness Enumeration (CWE)ランキングに記載されているさまざまなセキュリティ脆弱性に起因したコードスニペットのNL記述である。データセットの各プロンプトには、LLMが生成したコードに対する比較評価を容易にするセキュアな実装例が付属しています。実用アプリケーションとして,NL記述から自動生成されるスニペットのセキュリティ評価にLLMSecEvalをどのように利用できるかを示す。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition [16.134058143793304]
この研究は、現実世界のNL駆動機能追加タスクで大きな言語モデル(LLM)を評価するために設計されたベンチマークであるNoCode-benchを紹介する。高品質で人間認証された114のインスタンスのサブセット、NoCode-bench Verifiedは信頼性の高い評価を保証する。我々の実験によると、トークンの使用率が高いにもかかわらず、最高のLCMはタスクの成功率を15.79%に抑え、ファイル間の編集、理解、ツール呼び出しの課題を強調している。
論文参考訳（メタデータ） (2025-07-24T06:38:19Z)
Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis [10.268191178804168]
本稿では,Large Language Models (LLM) が生成するコードのセキュリティを,異なるプログラミング言語間で解析する。我々の研究によると、LLMはコード生成を自動化できるが、そのセキュリティの有効性は言語によって異なる。
論文参考訳（メタデータ） (2025-02-03T22:03:13Z)
Leveraging LLMs for Legacy Code Modernization: Challenges and Opportunities for LLM-Generated Documentation [2.249533649156367]
MUMPSやメインフレームアセンブリといった時代遅れの言語で記述されたレガシーソフトウェアシステムは、効率性、メンテナンス、スタッフリング、セキュリティにおいて課題を提起する。本稿では,2つのデータセットを用いたレガシコードのための文書生成におけるLCMの利用について検討する。本稿では,ラインワイドなコードコメントを生成するためのプロンプト戦略を提案し,その完全性,可読性,有用性,幻覚性を評価する。
論文参考訳（メタデータ） (2024-11-22T14:27:27Z)
VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文参考訳（メタデータ） (2024-09-16T22:00:20Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
An Exploratory Study on Fine-Tuning Large Language Models for Secure Code Generation [17.69409515806874]
脆弱性修正コミットのデータセット上での微調整済みのLLMがセキュアなコード生成を促進するかどうかを探索研究する。オープンソースのリポジトリから、確認済みの脆弱性のコード修正を収集することで、セキュアなコード生成のための微調整データセットをクロールしました。我々の調査によると、微調整のLLMは、C言語で6.4%、C++言語で5.4%、セキュアなコード生成を改善することができる。
論文参考訳（メタデータ） (2024-08-17T02:51:27Z)
Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-06-18T11:29:34Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文参考訳（メタデータ） (2023-11-01T22:46:31Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。