論文の概要: A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
- arxiv url: http://arxiv.org/abs/2508.18106v1
- Date: Mon, 25 Aug 2025 15:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.833285
- Title: A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
- Title(参考訳): A.S.E:AI生成コードのセキュリティ評価のためのリポジトリレベルベンチマーク
- Authors: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang,
- Abstract要約: A.S.E(AI Code Generation Security Evaluation)は、リポジトリレベルのセキュアコード生成のためのベンチマークである。
A.S.Eは、ドキュメント化されたCVEで実際のリポジトリからタスクを構築し、完全なリポジトリコンテキストを保存する。
その再現性のあるコンテナ化評価フレームワークは、専門家定義のルールを使用して、セキュリティ、ビルド品質、生成安定性の安定的で監査可能な評価を提供する。
- 参考スコア(独自算出の注目度): 48.10068691540979
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing adoption of large language models (LLMs) in software engineering necessitates rigorous security evaluation of their generated code. However, existing benchmarks are inadequate, as they focus on isolated code snippets, employ unstable evaluation methods that lack reproducibility, and fail to connect the quality of input context with the security of the output. To address these gaps, we introduce A.S.E (AI Code Generation Security Evaluation), a benchmark for repository-level secure code generation. A.S.E constructs tasks from real-world repositories with documented CVEs, preserving full repository context like build systems and cross-file dependencies. Its reproducible, containerized evaluation framework uses expert-defined rules to provide stable, auditable assessments of security, build quality, and generation stability. Our evaluation of leading LLMs on A.S.E reveals three key findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The security gap between proprietary and open-source models is narrow; Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise, ``fast-thinking'' decoding strategies consistently outperform complex, ``slow-thinking'' reasoning for security patching.
- Abstract(参考訳): ソフトウェア工学における大規模言語モデル(LLM)の採用の増加は、生成されたコードの厳格なセキュリティ評価を必要とする。
しかし、既存のベンチマークは、独立したコードスニペットに焦点を当て、再現性に欠ける不安定な評価手法を採用し、入力コンテキストの品質と出力のセキュリティを結びつけることができないため、不十分である。
これらのギャップに対処するために、リポジトリレベルのセキュアコード生成のベンチマークであるAIコード生成セキュリティ評価(AI Code Generation Security Evaluation)を紹介する。
A.S.Eはドキュメント化されたCVEで現実世界のリポジトリからタスクを構築し、ビルドシステムやファイル間の依存関係のような完全なリポジトリコンテキストを保存する。
その再現性のあるコンテナ化評価フレームワークは、専門家定義のルールを使用して、セキュリティ、ビルド品質、生成安定性の安定的で監査可能な評価を提供する。
A.S.E 上での LLM の先行評価では,(1) Claude-3.7-Sonnet が最高性能を達成している。
2) プロプライエタリモデルとオープンソースモデルのセキュリティギャップは狭く,Qwen3-235B-A22B-Instruct がセキュリティスコアのトップに到達した。
(3) 簡潔, ` `fast-thinking' 復号化戦略は, セキュリティパッチに対する ` ``slow-thinking' の推論において, 常に複雑で, ` ``slow-thinking' の推論よりも優れていた。
関連論文リスト
- SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.97472024483841]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。
当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。
最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文 参考訳(メタデータ) (2025-06-13T13:54:30Z) - SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。
データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。
SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T02:48:02Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。