論文の概要: "You still have to study" -- On the Security of LLM generated code
- arxiv url: http://arxiv.org/abs/2408.07106v1
- Date: Tue, 13 Aug 2024 07:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 15:07:25.882535
- Title: "You still have to study" -- On the Security of LLM generated code
- Title(参考訳): 「まだ勉強しなくてはいけない」- LLM 生成コードのセキュリティについて
- Authors: Stefan Goetz, Andreas Schaad,
- Abstract要約: 日常的な(教室)プログラミングタスクにおいても,AIアシスタントの利用が増加しているのを目撃する。
プログラマがいわゆる"prompt"に基づいて生成するコードは、常に認められたセキュリティ基準を満たしているとは限らない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We witness an increasing usage of AI-assistants even for routine (classroom) programming tasks. However, the code generated on basis of a so called "prompt" by the programmer does not always meet accepted security standards. On the one hand, this may be due to lack of best-practice examples in the training data. On the other hand, the actual quality of the programmers prompt appears to influence whether generated code contains weaknesses or not. In this paper we analyse 4 major LLMs with respect to the security of generated code. We do this on basis of a case study for the Python and Javascript language, using the MITRE CWE catalogue as the guiding security definition. Our results show that using different prompting techniques, some LLMs initially generate 65% code which is deemed insecure by a trained security engineer. On the other hand almost all analysed LLMs will eventually generate code being close to 100% secure with increasing manual guidance of a skilled engineer.
- Abstract(参考訳): 日常的な(教室)プログラミングタスクにおいても,AIアシスタントの利用が増加しているのを目撃する。
しかし、プログラマがいわゆる "prompt" に基づいて生成したコードは、常に受け入れられたセキュリティ基準を満たしているとは限らない。
一方、これはトレーニングデータにベストプラクティスの例が欠けているためかもしれない。
一方、プログラマの実際の品質は、生成されたコードに弱点があるかどうかに影響を与えているように見える。
本稿では、生成されたコードのセキュリティに関して、4つの主要なLCMを分析します。
我々は、PythonとJavascript言語のケーススタディに基づいて、MITRE CWEカタログをセキュリティ定義の指針として使用しています。
その結果、異なるプロンプト技術を用いることで、訓練されたセキュリティエンジニアによって安全でないと見なされる65%のコードを生成するLCMが存在することがわかった。
一方、分析済みのLLMのほとんどすべてが最終的に100%近いセキュアなコードを生成し、熟練したエンジニアの手作業によるガイダンスを増大させます。
関連論文リスト
- Artificial-Intelligence Generated Code Considered Harmful: A Road Map for Secure and High-Quality Code Generation [2.793781561647737]
人書きコードとLLM生成コードのセキュリティと品質を比較した。
LLMは、必要な機能を実装するのに失敗する間違ったコードを生成することができることがわかった。
Flukeingによると、LLMの生成したコードは、人間が書いたコードよりもハングやクラッシュしやすい。
論文 参考訳(メタデータ) (2024-09-27T23:41:51Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - An Exploratory Study on Fine-Tuning Large Language Models for Secure Code Generation [17.69409515806874]
脆弱性修正コミットのデータセット上での微調整済みのLLMがセキュアなコード生成を促進するかどうかを探索研究する。
オープンソースのリポジトリから、確認済みの脆弱性のコード修正を収集することで、セキュアなコード生成のための微調整データセットをクロールしました。
我々の調査によると、微調整のLLMは、C言語で6.4%、C++言語で5.4%、セキュアなコード生成を改善することができる。
論文 参考訳(メタデータ) (2024-08-17T02:51:27Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。