論文の概要: A Comprehensive Study of LLM Secure Code Generation
- arxiv url: http://arxiv.org/abs/2503.15554v1
- Date: Tue, 18 Mar 2025 20:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:11.554984
- Title: A Comprehensive Study of LLM Secure Code Generation
- Title(参考訳): LLMセキュアコード生成に関する総合的研究
- Authors: Shih-Chieh Dai, Jun Xu, Guanhong Tao,
- Abstract要約: これまでの研究は主に、生成されたコードの脆弱性を検出するために、単一の静的アナライザであるCodeQLに依存していた。
セキュリティ検査と機能検証の両方を同一生成コードに適用し、これら2つの側面をまとめて評価する。
我々の研究は、既存の技術が多くの場合、生成したコードの機能を損なうことにより、セキュリティが向上することを示した。
- 参考スコア(独自算出の注目度): 19.82291066720634
- License:
- Abstract: LLMs are widely used in software development. However, the code generated by LLMs often contains vulnerabilities. Several secure code generation methods have been proposed to address this issue, but their current evaluation schemes leave several concerns unaddressed. Specifically, most existing studies evaluate security and functional correctness separately, using different datasets. That is, they assess vulnerabilities using security-related code datasets while validating functionality with general code datasets. In addition, prior research primarily relies on a single static analyzer, CodeQL, to detect vulnerabilities in generated code, which limits the scope of security evaluation. In this work, we conduct a comprehensive study to systematically assess the improvements introduced by four state-of-the-art secure code generation techniques. Specifically, we apply both security inspection and functionality validation to the same generated code and evaluate these two aspects together. We also employ three popular static analyzers and two LLMs to identify potential vulnerabilities in the generated code. Our study reveals that existing techniques often compromise the functionality of generated code to enhance security. Their overall performance remains limited when evaluating security and functionality together. In fact, many techniques even degrade the performance of the base LLM. Our further inspection reveals that these techniques often either remove vulnerable lines of code entirely or generate ``garbage code'' that is unrelated to the intended task. Moreover, the commonly used static analyzer CodeQL fails to detect several vulnerabilities, further obscuring the actual security improvements achieved by existing techniques. Our study serves as a guideline for a more rigorous and comprehensive evaluation of secure code generation performance in future work.
- Abstract(参考訳): LLMはソフトウェア開発で広く使われている。
しかし、LLMによって生成されたコードは、しばしば脆弱性を含んでいる。
いくつかのセキュアなコード生成手法がこの問題に対処するために提案されているが、現在の評価スキームにはいくつかの懸念が残されている。
具体的には、既存の研究の多くは、異なるデータセットを使用して、セキュリティと機能的正当性を別々に評価している。
つまり、セキュリティ関連のコードデータセットを使用して脆弱性を評価し、一般的なコードデータセットで機能を検証する。
さらに、以前の研究は主に、生成されたコードの脆弱性を検出するために、単一の静的アナライザであるCodeQLに依存しており、セキュリティ評価の範囲が制限されている。
本研究では、4つの最先端のセキュアコード生成技術によって導入された改善を体系的に評価するための総合的研究を行う。
具体的には、同一生成コードにセキュリティ検査と機能検証の両方を適用し、これら2つの側面を一緒に評価する。
また、生成されたコードの潜在的な脆弱性を特定するために、3つの人気のある静的アナライザと2つのLSMも使用しています。
我々の研究は、既存の技術が多くの場合、生成したコードの機能を損なうことにより、セキュリティが向上することを示した。
セキュリティと機能を一緒に評価する場合、全体的なパフォーマンスは制限されている。
実際、多くの技術がベースLLMの性能を低下させています。
さらに調べてみると、これらのテクニックは多くの場合、脆弱性のあるコードの行を完全に削除するか、意図したタスクとは無関係な 'garbage code'' を生成します。
さらに、一般的に使用される静的アナライザのCodeQLは、いくつかの脆弱性の検出に失敗し、既存のテクニックによって達成された実際のセキュリティ改善を無視する。
我々の研究は、将来の作業におけるセキュアなコード生成性能をより厳密かつ包括的に評価するためのガイドラインとして役立ちます。
関連論文リスト
- CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing [6.334110674473677]
既存のアプローチは、セキュアで脆弱性のないコードを生成するのに苦労するコード生成に、単一のエージェントに依存することが多い。
コード生成,脆弱性解析,セキュリティ強化にLLM駆動エージェントを活用するマルチエージェントフレームワークであるAutoSafeCoderを提案する。
私たちのコントリビューションは、コード生成中に反復的なプロセスで動的および静的なテストを統合することで、マルチエージェントコード生成の安全性を確保することに焦点を当てています。
論文 参考訳(メタデータ) (2024-09-16T21:15:56Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。