論文の概要: SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2506.05692v1
- Date: Fri, 06 Jun 2025 02:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.297042
- Title: SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code
- Title(参考訳): SafeGenBench: LLM生成コードのセキュリティ脆弱性検出のためのベンチマークフレームワーク
- Authors: Xinghang Li, Jingzhe Ding, Chao Peng, Bing Zhao, Xiang Gao, Hongwan Gao, Xinchen Gu,
- Abstract要約: LLM生成コードのセキュリティ評価に特化して設計されたベンチマークであるベンチマークを導入する。
このベンチマークに基づいて,モデル生成コードにセキュリティ脆弱性が存在することを評価する自動評価フレームワークを開発した。
本稿では,LLMのセキュアコード生成性能について,今後の進歩に有効な知見を提供するとともに,今後の課題を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 7.209766132478914
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The code generation capabilities of large language models(LLMs) have emerged as a critical dimension in evaluating their overall performance. However, prior research has largely overlooked the security risks inherent in the generated code. In this work, we introduce \benchmark, a benchmark specifically designed to assess the security of LLM-generated code. The dataset encompasses a wide range of common software development scenarios and vulnerability types. Building upon this benchmark, we develop an automatic evaluation framework that leverages both static application security testing(SAST) and LLM-based judging to assess the presence of security vulnerabilities in model-generated code. Through the empirical evaluation of state-of-the-art LLMs on \benchmark, we reveal notable deficiencies in their ability to produce vulnerability-free code. Our findings highlight pressing challenges and offer actionable insights for future advancements in the secure code generation performance of LLMs. The data and code will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)のコード生成能力は、全体的なパフォーマンスを評価する上で重要な要素として現れている。
しかしながら、以前の調査では、生成されたコードに固有のセキュリティリスクがほとんど見過ごされていました。
本研究では,LLM生成コードのセキュリティ評価に特化して設計されたベンチマークである \benchmark を紹介する。
データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。
このベンチマークに基づいて,静的アプリケーションセキュリティテスト(SAST)とLCMに基づく判定の両方を活用して,モデル生成コードのセキュリティ脆弱性の有無を評価する自動評価フレームワークを開発した。
ベンチマーク上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
本稿では,LLMのセキュアコード生成性能について,今後の進歩に有効な知見を提供するとともに,今後の課題を浮き彫りにしている。
データとコードはまもなくリリースされる。
関連論文リスト
- Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective [19.345433857645016]
CoV-Evalは、コード補完、脆弱性修復、脆弱性検出、分類など、さまざまなタスクをカバーするマルチタスクベンチマークである。
VC-Judgeは、人間の専門家と密接に一致し、LLM生成プログラムの脆弱性をレビューできる、改善された判断モデルである。
論文 参考訳(メタデータ) (2025-05-15T16:53:41Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。