論文の概要: Generate and Pray: Using SALLMS to Evaluate the Security of LLM
Generated Code
- arxiv url: http://arxiv.org/abs/2311.00889v1
- Date: Wed, 1 Nov 2023 22:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:30:49.412599
- Title: Generate and Pray: Using SALLMS to Evaluate the Security of LLM
Generated Code
- Title(参考訳): Generate and Pray: LLM生成コードのセキュリティ評価にSALLMSを使用する
- Authors: Mohammed Latif Siddiq and Joanna C. S. Santos
- Abstract要約: 大規模言語モデルによって生成されたコードが正しいだけでなく、脆弱性もないことを保証することが重要です。
LLM(Large Language Models)を評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。
生成されたコードのセキュリティを評価することに焦点を当てたベンチマークが明らかに欠落している。
- 参考スコア(独自算出の注目度): 0.7451457983372032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing popularity of Large Language Models (e.g. GitHub Copilot,
ChatGPT, etc.) in software engineers' daily practices, it is important to
ensure that the code generated by these tools is not only functionally correct
but also free of vulnerabilities. Although LLMs can help developers to be more
productive, prior empirical studies have shown that LLMs can generate insecure
code. There are two contributing factors to the insecure code generation.
First, existing datasets used to evaluate Large Language Models (LLMs) do not
adequately represent genuine software engineering tasks sensitive to security.
Instead, they are often based on competitive programming challenges or
classroom-type coding tasks. In real-world applications, the code produced is
integrated into larger codebases, introducing potential security risks. There's
a clear absence of benchmarks that focus on evaluating the security of the
generated code. Second, existing evaluation metrics primarily focus on the
functional correctness of the generated code while ignoring security
considerations. Metrics such as pass@k gauge the probability of obtaining the
correct code in the top k suggestions. Other popular metrics like BLEU,
CodeBLEU, ROUGE, and METEOR similarly emphasize functional accuracy, neglecting
security implications. In light of these research gaps, in this paper, we
described SALLM, a framework to benchmark LLMs' abilities to generate secure
code systematically. This framework has three major components: a novel dataset
of security-centric Python prompts, an evaluation environment to test the
generated code, and novel metrics to evaluate the models' performance from the
perspective of secure code generation.
- Abstract(参考訳): ソフトウェアエンジニアの日々のプラクティスにおいて、Large Language Models(GitHub Copilot、ChatGPTなど)の人気が高まっているため、これらのツールによって生成されたコードが機能的に正しいだけでなく、脆弱性のないことを保証することが重要です。
LLMは開発者の生産性向上に役立つが、以前の実証実験では、LLMが安全でないコードを生成することが示されている。
安全でないコード生成には2つの要因がある。
まず、LLM(Large Language Models)を評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。
代わりに、しばしば競合するプログラミングの課題や教室タイプのコーディングタスクに基づいている。
現実世界のアプリケーションでは、生成されたコードはより大きなコードベースに統合され、潜在的なセキュリティリスクをもたらす。
生成されたコードのセキュリティを評価することに焦点を当てたベンチマークは明らかに存在しない。
第二に、既存の評価指標は、主に、セキュリティ上の考慮を無視しながら生成されたコードの機能的正当性に焦点を当てています。
pass@kのようなメトリクスは、トップk提案の正しいコードを取得する確率を測定します。
BLEU、CodeBLEU、ROUGE、METEORといった他の一般的なメトリクスも同様に機能精度を強調し、セキュリティ上の影響を無視している。
本稿では,これらの研究ギャップを鑑みて,セキュアなコードを生成するLLMの能力をベンチマークするフレームワークであるSALLMについて述べる。
このフレームワークには3つの主要なコンポーネントがある: セキュリティ中心のpythonプロンプトの新しいデータセット、生成されたコードをテストするための評価環境、安全なコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクス。
関連論文リスト
- HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - An Exploratory Study on Fine-Tuning Large Language Models for Secure Code Generation [17.69409515806874]
脆弱性修正コミットのデータセット上での微調整済みのLLMがセキュアなコード生成を促進するかどうかを探索研究する。
オープンソースのリポジトリから、確認済みの脆弱性のコード修正を収集することで、セキュアなコード生成のための微調整データセットをクロールしました。
我々の調査によると、微調整のLLMは、C言語で6.4%、C++言語で5.4%、セキュアなコード生成を改善することができる。
論文 参考訳(メタデータ) (2024-08-17T02:51:27Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Ocassionally Secure: A Comparative Analysis of Code Generation
Assistants [8.573156248244695]
本稿では,LLMを効果的かつ安全に展開できる状況と状況を特定し,理解することに焦点を当てる。
Google の ChatGPT と Bard と Gemini を用いた 4 つの高度な LLM--GPT-3.5 と GPT-4 の比較分析を行い,各モデルのコード生成能力を評価した。
61のコードアウトプットを収集し、機能、セキュリティ、パフォーマンス、複雑さ、信頼性など、さまざまな側面で分析しました。
論文 参考訳(メタデータ) (2024-02-01T15:49:47Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。