Fugu-MT 論文翻訳(概要): A Comprehensive Study of LLM Secure Code Generation

論文の概要: A Comprehensive Study of LLM Secure Code Generation

arxiv url: http://arxiv.org/abs/2503.15554v1
Date: Tue, 18 Mar 2025 20:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.086139
Title: A Comprehensive Study of LLM Secure Code Generation
Title（参考訳）: LLMセキュアコード生成に関する総合的研究
Authors: Shih-Chieh Dai, Jun Xu, Guanhong Tao,
Abstract要約: これまでの研究は主に、生成されたコードの脆弱性を検出するために、単一の静的アナライザであるCodeQLに依存していた。セキュリティ検査と機能検証の両方を同一生成コードに適用し、これら2つの側面をまとめて評価する。我々の研究は、既存の技術が多くの場合、生成したコードの機能を損なうことにより、セキュリティが向上することを示した。
参考スコア（独自算出の注目度）: 19.82291066720634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs are widely used in software development. However, the code generated by LLMs often contains vulnerabilities. Several secure code generation methods have been proposed to address this issue, but their current evaluation schemes leave several concerns unaddressed. Specifically, most existing studies evaluate security and functional correctness separately, using different datasets. That is, they assess vulnerabilities using security-related code datasets while validating functionality with general code datasets. In addition, prior research primarily relies on a single static analyzer, CodeQL, to detect vulnerabilities in generated code, which limits the scope of security evaluation. In this work, we conduct a comprehensive study to systematically assess the improvements introduced by four state-of-the-art secure code generation techniques. Specifically, we apply both security inspection and functionality validation to the same generated code and evaluate these two aspects together. We also employ three popular static analyzers and two LLMs to identify potential vulnerabilities in the generated code. Our study reveals that existing techniques often compromise the functionality of generated code to enhance security. Their overall performance remains limited when evaluating security and functionality together. In fact, many techniques even degrade the performance of the base LLM. Our further inspection reveals that these techniques often either remove vulnerable lines of code entirely or generate ``garbage code'' that is unrelated to the intended task. Moreover, the commonly used static analyzer CodeQL fails to detect several vulnerabilities, further obscuring the actual security improvements achieved by existing techniques. Our study serves as a guideline for a more rigorous and comprehensive evaluation of secure code generation performance in future work.
Abstract（参考訳）: LLMはソフトウェア開発で広く使われている。しかし、LLMによって生成されたコードは、しばしば脆弱性を含んでいる。いくつかのセキュアなコード生成手法がこの問題に対処するために提案されているが、現在の評価スキームにはいくつかの懸念が残されている。具体的には、既存の研究の多くは、異なるデータセットを使用して、セキュリティと機能的正当性を別々に評価している。つまり、セキュリティ関連のコードデータセットを使用して脆弱性を評価し、一般的なコードデータセットで機能を検証する。さらに、以前の研究は主に、生成されたコードの脆弱性を検出するために、単一の静的アナライザであるCodeQLに依存しており、セキュリティ評価の範囲が制限されている。本研究では、4つの最先端のセキュアコード生成技術によって導入された改善を体系的に評価するための総合的研究を行う。具体的には、同一生成コードにセキュリティ検査と機能検証の両方を適用し、これら2つの側面を一緒に評価する。また、生成されたコードの潜在的な脆弱性を特定するために、3つの人気のある静的アナライザと2つのLSMも使用しています。我々の研究は、既存の技術が多くの場合、生成したコードの機能を損なうことにより、セキュリティが向上することを示した。セキュリティと機能を一緒に評価する場合、全体的なパフォーマンスは制限されている。実際、多くの技術がベースLLMの性能を低下させています。さらに調べてみると、これらのテクニックは多くの場合、脆弱性のあるコードの行を完全に削除するか、意図したタスクとは無関係な 'garbage code'' を生成します。さらに、一般的に使用される静的アナライザのCodeQLは、いくつかの脆弱性の検出に失敗し、既存のテクニックによって達成された実際のセキュリティ改善を無視する。我々の研究は、将来の作業におけるセキュアなコード生成性能をより厳密かつ包括的に評価するためのガイドラインとして役立ちます。

関連論文リスト

SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。 SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文参考訳（メタデータ） (2025-06-06T02:48:02Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective [19.345433857645016]
CoV-Evalは、コード補完、脆弱性修復、脆弱性検出、分類など、さまざまなタスクをカバーするマルチタスクベンチマークである。 VC-Judgeは、人間の専門家と密接に一致し、LLM生成プログラムの脆弱性をレビューできる、改善された判断モデルである。
論文参考訳（メタデータ） (2025-05-15T16:53:41Z)
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
Give LLMs a Security Course: Securing Retrieval-Augmented Code Generation via Knowledge Injection [5.011290848820237]
既存のRetrieval-Augmented Code Generation (RACG) システムはセキュリティをほとんど見落としており、重大なリスクをもたらしている。本稿では,RACGシステムのセキュリティ強化フレームワークであるCodeGuarderを提案する。我々のフレームワークは,セキュアなコードサンプルやルート原因アノテーションを含む,現実世界の脆弱性データベースからセキュリティ知識ベースを構築する。
論文参考訳（メタデータ） (2025-04-23T05:27:27Z)
CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文参考訳（メタデータ） (2025-01-14T15:27:01Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文参考訳（メタデータ） (2024-07-02T16:13:21Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文参考訳（メタデータ） (2023-11-01T22:46:31Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文参考訳（メタデータ） (2020-10-19T13:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。