論文の概要: Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs
- arxiv url: http://arxiv.org/abs/2406.12513v1
- Date: Tue, 18 Jun 2024 11:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:17:37.210671
- Title: Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs
- Title(参考訳): 大規模言語モデル生成コードの信頼は可能か?-多言語LLM間の非コンテキスト学習、セキュリティパターン、およびコード評価のためのフレームワーク
- Authors: Ahmad Mohsin, Helge Janicke, Adrian Wood, Iqbal H. Sarker, Leandros Maglaras, Naeem Janjua,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
- 参考スコア(独自算出の注目度): 2.7138982369416866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT and GitHub Copilot have revolutionized automated code generation in software engineering. However, as these models are increasingly utilized for software development, concerns have arisen regarding the security and quality of the generated code. These concerns stem from LLMs being primarily trained on publicly available code repositories and internet-based textual data, which may contain insecure code. This presents a significant risk of perpetuating vulnerabilities in the generated code, creating potential attack vectors for exploitation by malicious actors. Our research aims to tackle these issues by introducing a framework for secure behavioral learning of LLMs through In-Content Learning (ICL) patterns during the code generation process, followed by rigorous security evaluations. To achieve this, we have selected four diverse LLMs for experimentation. We have evaluated these coding LLMs across three programming languages and identified security vulnerabilities and code smells. The code is generated through ICL with curated problem sets and undergoes rigorous security testing to evaluate the overall quality and trustworthiness of the generated code. Our research indicates that ICL-driven one-shot and few-shot learning patterns can enhance code security, reducing vulnerabilities in various programming scenarios. Developers and researchers should know that LLMs have a limited understanding of security principles. This may lead to security breaches when the generated code is deployed in production systems. Our research highlights LLMs are a potential source of new vulnerabilities to the software supply chain. It is important to consider this when using LLMs for code generation. This research article offers insights into improving LLM security and encourages proactive use of LLMs for code generation to ensure software system safety.
- Abstract(参考訳): ChatGPTやGitHub Copilotといった大規模言語モデル(LLM)は、ソフトウェアエンジニアリングにおける自動コード生成に革命をもたらした。
しかしながら、これらのモデルがソフトウェア開発にますます活用されているため、生成されたコードのセキュリティと品質に関する懸念が生じている。
これらの懸念は、LLMが主に、安全でないコードを含む可能性のある、公開コードリポジトリとインターネットベースのテキストデータに基づいてトレーニングされていることに起因する。
これにより、生成されたコードに脆弱性が持続し、悪意のあるアクターが悪用する可能性のある攻撃ベクトルが生成されるという重大なリスクが生じる。
本研究の目的は,コード生成プロセス中にICLパターンを用いてLCMの行動学習をセキュアにするためのフレームワークを導入し,厳密なセキュリティ評価を行うことである。
これを実現するために,実験のために4つの多様なLSMを選択した。
3つのプログラミング言語にまたがるこれらのコーディングLLMを評価し、セキュリティ上の脆弱性とコードの臭いを特定した。
コードはICLを通じてキュレートされた問題セットで生成され、生成されるコードの全体的な品質と信頼性を評価するために厳格なセキュリティテストが行われる。
我々の研究は、ICL駆動のワンショットと少数ショットの学習パターンがコードのセキュリティを強化し、様々なプログラミングシナリオの脆弱性を減らすことを示唆している。
開発者や研究者は、LLMがセキュリティ原則を限定的に理解していることを知っておくべきです。
これは、生成したコードが本番システムにデプロイされたときにセキュリティ違反を引き起こす可能性がある。
私たちの研究は、LSMがソフトウェアサプライチェーンに対する新たな脆弱性の潜在的な源であることを強調しています。
コード生成にLLMを使用する場合、これを考慮しておくことが重要です。
本稿では,LLMのセキュリティ向上に関する知見を提供し,ソフトウェアシステムの安全性を確保するため,コード生成にLLMを積極的に活用することを推奨する。
関連論文リスト
- Prompting Techniques for Secure Code Generation: A Systematic Investigation [4.777102838267181]
大規模言語モデル(LLM)は、プロンプト駆動プログラミングによるソフトウェア開発で勢いを増している。
LLMによるNL命令から生成されたコードのセキュリティに異なるプロンプト技術が与える影響について検討する。
論文 参考訳(メタデータ) (2024-07-09T17:38:03Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - Constrained Decoding for Secure Code Generation [9.007821185927277]
本稿では、コードLLMがセキュアかつ正しいコードを生成する能力を測定するための新しいベンチマークであるCodeGuard+を紹介する。
我々は,現在最先端の防御技術であるプレフィックスチューニングが,セキュアなコードを生成するが機能的正当性を犠牲にしているため,従来考えられていたほど強力ではないことを示す。
セキュアなコードを生成するための制約付き復号法を提案する。
論文 参考訳(メタデータ) (2024-04-30T21:52:19Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMは人間と弱点を共有している。
我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Generate and Pray: Using SALLMS to Evaluate the Security of LLM Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。