論文の概要: A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
- arxiv url: http://arxiv.org/abs/2508.18106v2
- Date: Wed, 10 Sep 2025 07:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.162069
- Title: A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
- Title(参考訳): A.S.E:AI生成コードのセキュリティ評価のためのリポジトリレベルベンチマーク
- Authors: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang,
- Abstract要約: A.S.E(AI Code Generation Security Evaluation、AIコード生成セキュリティ評価)は、現実のAIプログラミングタスクを密接に反映するように設計されたリポジトリレベルの評価ベンチマークである。
大規模言語モデル(LLM)をA.S.E上で評価した結果,いくつかの重要な知見が得られた。
- 参考スコア(独自算出の注目度): 48.10068691540979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing adoption of large language models (LLMs) in software engineering necessitates rigorous security evaluation of their generated code. However, existing benchmarks often lack relevance to real-world AI programming scenarios, making them inadequate for assessing the practical security risks associated with AI-generated code in production environments. To address this gap, we introduce A.S.E (AI Code Generation Security Evaluation), a repository-level evaluation benchmark designed to closely mirror real-world AI programming tasks, offering a comprehensive and reliable framework for assessing the security of AI-generated code. Our evaluation of leading LLMs on A.S.E reveals several key findings. In particular, current LLMs still struggle with secure coding. The complexity in repository-level scenarios presents challenges for LLMs that typically perform well on snippet-level tasks. Morever, a larger reasoning budget does not necessarily lead to better code generation. These observations offer valuable insights into the current state of AI code generation, assisting developers in selecting the most appropriate models for practical tasks, while laying the foundation for refining LLMs to generate secure and efficient code in real-world applications.
- Abstract(参考訳): ソフトウェア工学における大規模言語モデル(LLM)の採用の増加は、生成されたコードの厳格なセキュリティ評価を必要とする。
しかし、既存のベンチマークでは、実世界のAIプログラミングシナリオとの関連性が欠如していることが多く、プロダクション環境でAI生成コードに関連する現実的なセキュリティリスクを評価するには不十分である。
A.S.E(AI Code Generation Security Evaluation、AIコード生成セキュリティ評価)は、AI生成コードのセキュリティを評価するための包括的で信頼性の高いフレームワークを提供する、現実のAIプログラミングタスクを密接に反映したリポジトリレベルの評価ベンチマークである。
A.S.E における LLM の検討から,いくつかの重要な知見が得られた。
特に、現在のLLMはセキュアなコーディングに苦戦している。
リポジトリレベルのシナリオの複雑さは、典型的にはスニペットレベルのタスクでうまく機能するLLMの課題を示します。
さらに、より大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
これらの観察は、AIコード生成の現状に関する貴重な洞察を提供し、開発者が実用的なタスクに最も適したモデルを選択するのを支援すると同時に、LLMを精錬して、現実世界のアプリケーションでセキュアで効率的なコードを生成する基盤を構築します。
関連論文リスト
- SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.97472024483841]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。
当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。
最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文 参考訳(メタデータ) (2025-06-13T13:54:30Z) - SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。
データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。
SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T02:48:02Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。