論文の概要: AutoBaxBuilder: Bootstrapping Code Security Benchmarking
- arxiv url: http://arxiv.org/abs/2512.21132v1
- Date: Wed, 24 Dec 2025 12:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.776026
- Title: AutoBaxBuilder: Bootstrapping Code Security Benchmarking
- Title(参考訳): AutoBaxBuilder: コードのセキュリティベンチマークをブートストラップする
- Authors: Tobias von Arx, Niels Mündler, Mark Vero, Maximilian Baader, Martin Vechev,
- Abstract要約: コードセキュリティベンチマークのタスクとテストをスクラッチから生成するフレームワークであるAutoBaxBuilderを紹介します。
LLMのコード理解機能を活用して,機能テストとエンドツーエンドのセキュリティ保証のエクスプロイトを構築する,詳細な可視性チェックを備えた堅牢なパイプラインを導入する。
私たちはAutoBaxBuilderを使ってまったく新しいタスクを構築し、それらをAutoBaxBenchとして公開します。
- 参考スコア(独自算出の注目度): 14.946765026951601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs see wide adoption in software engineering, the reliable assessment of the correctness and security of LLM-generated code is crucial. Notably, prior work has demonstrated that security is often overlooked, exposing that LLMs are prone to generating code with security vulnerabilities. These insights were enabled by specialized benchmarks, crafted through significant manual effort by security experts. However, relying on manually-crafted benchmarks is insufficient in the long term, because benchmarks (i) naturally end up contaminating training data, (ii) must extend to new tasks to provide a more complete picture, and (iii) must increase in difficulty to challenge more capable LLMs. In this work, we address these challenges and present AutoBaxBuilder, a framework that generates tasks and tests for code security benchmarking from scratch. We introduce a robust pipeline with fine-grained plausibility checks, leveraging the code understanding capabilities of LLMs to construct functionality tests and end-to-end security-probing exploits. To confirm the quality of the generated benchmark, we conduct both a qualitative analysis and perform quantitative experiments, comparing it against tasks constructed by human experts. We use AutoBaxBuilder to construct entirely new tasks and release them to the public as AutoBaxBench, together with a thorough evaluation of the security capabilities of LLMs on these tasks. We find that a new task can be generated in under 2 hours, costing less than USD 10.
- Abstract(参考訳): LLMは、ソフトウェア工学に広く採用されているので、LLM生成コードの正確性とセキュリティの信頼性の評価が不可欠である。
特に、以前の作業では、セキュリティがしばしば見落とされ、LLMがセキュリティ上の脆弱性のあるコードを生成する傾向があることが判明した。
これらの洞察は、セキュリティ専門家による重要な手作業を通じて作られた特別なベンチマークによって実現された。
しかし、手作業によるベンチマークに頼ることは、長期的には不十分である。
一 自然に訓練データを汚染する。
(ii) より完全な図を提供するために、新しいタスクに拡張し、
三 より有能なLDMに挑戦する難しさを増さなければならない。
本稿では,これらの課題に対処し,コードセキュリティベンチマーク用のタスクとテストを生成するAutoBaxBuilderをスクラッチから提供する。
LLMのコード理解機能を活用して,機能テストとエンドツーエンドのセキュリティ保証のエクスプロイトを構築する,詳細な可視性チェックを備えた堅牢なパイプラインを導入する。
生成したベンチマークの品質を確認するため、定性的分析と定量的実験の両方を行い、人間の専門家が構築したタスクと比較した。
私たちはAutoBaxBuilderを使ってまったく新しいタスクを構築し、それらをAutoBaxBenchとして公開します。
新しいタスクは2時間以内に生成でき、コストはUSD 10.99ドル以下である。
関連論文リスト
- A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。
データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。
SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T02:48:02Z) - AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [48.925168866726814]
AgentAuditorは、トレーニングなし、メモリ拡張推論フレームワークである。
ASSEBenchは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - OSS-Bench: Benchmark Generator for Coding LLMs [4.393587297483245]
本稿では,実世界のオープンソースソフトウェアから大規模かつ実運用的な評価タスクを構築するベンチマークジェネレータOSS-Benchを紹介する。
OSS-Benchは、関数をLLM生成コードに置き換えて、コンパイル性、機能的正確性、メモリ安全性という3つの自然な指標を使用して評価する。
OSS-BenchはOSSの複雑さの進化を生かして過度な適合を緩和することを示した。
論文 参考訳(メタデータ) (2025-05-18T09:53:51Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。