論文の概要: SecCodeBench-V2 Technical Report
- arxiv url: http://arxiv.org/abs/2602.15485v1
- Date: Tue, 17 Feb 2026 10:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.036119
- Title: SecCodeBench-V2 Technical Report
- Title(参考訳): SecCodeBench-V2テクニカルレポート
- Authors: Longfei Chen, Ji Zhao, Lanxiao Cui, Tong Su, Xingbo Pan, Ziyang Li, Yongxing Wu, Qijiang Cao, Qiyao Cai, Jing Zhang, Yuandong Ni, Junyao He, Zeyu Zhang, Chao Ge, Xuhuai Lu, Zeyu Gao, Yuxin Cui, Weisen Chen, Yuxuan Peng, Shengping Wang, Qi Li, Yukai Huang, Yukun Liu, Tuo Zhou, Terry Yue Zhuo, Junyang Lin, Chao Zhang,
- Abstract要約: SecCodeBench-V2は,セキュアなコードを生成するLarge Language Model (LLM)コピロの能力を評価するためのベンチマークである。
SecCodeBench-V2は、アリババグループの工業生産から派生した98世代および修正シナリオを含む。
各シナリオに対して、SecCodeBench-V2は、機能検証とセキュリティ検証の両方に対して実行可能な概念実証(PoC)テストケースを提供する。
- 参考スコア(独自算出の注目度): 43.10947096543533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SecCodeBench-V2, a publicly released benchmark for evaluating Large Language Model (LLM) copilots' capabilities of generating secure code. SecCodeBench-V2 comprises 98 generation and fix scenarios derived from Alibaba Group's industrial productions, where the underlying security issues span 22 common CWE (Common Weakness Enumeration) categories across five programming languages: Java, C, Python, Go, and Node.js. SecCodeBench-V2 adopts a function-level task formulation: each scenario provides a complete project scaffold and requires the model to implement or patch a designated target function under fixed interfaces and dependencies. For each scenario, SecCodeBench-V2 provides executable proof-of-concept (PoC) test cases for both functional validation and security verification. All test cases are authored and double-reviewed by security experts, ensuring high fidelity, broad coverage, and reliable ground truth. Beyond the benchmark itself, we build a unified evaluation pipeline that assesses models primarily via dynamic execution. For most scenarios, we compile and run model-generated artifacts in isolated environments and execute PoC test cases to validate both functional correctness and security properties. For scenarios where security issues cannot be adjudicated with deterministic test cases, we additionally employ an LLM-as-a-judge oracle. To summarize performance across heterogeneous scenarios and difficulty levels, we design a Pass@K-based scoring protocol with principled aggregation over scenarios and severity, enabling holistic and comparable evaluation across models. Overall, SecCodeBench-V2 provides a rigorous and reproducible foundation for assessing the security posture of AI coding assistants, with results and artifacts released at https://alibaba.github.io/sec-code-bench. The benchmark is publicly available at https://github.com/alibaba/sec-code-bench.
- Abstract(参考訳): 我々はSecCodeBench-V2を紹介した。SecCodeBench-V2は、セキュアなコードを生成するLarge Language Model(LLM)のコピロの能力を評価するための公開ベンチマークである。
SecCodeBench-V2は、Alibaba Groupのインダストリアルプロダクションから派生した98の生成と修正シナリオで構成されており、基礎となるセキュリティ問題は、Java、C、Python、Go、Node.jsの5つのプログラミング言語にまたがる22の共通CWE(Common Weakness Enumeration)カテゴリにまたがっている。
SecCodeBench-V2では、関数レベルのタスクの定式化が採用されている。 各シナリオは、完全なプロジェクトスキャフォールドを提供し、固定されたインターフェースと依存関係の下で指定されたターゲット関数を実装したり、パッチしたりする必要がある。
各シナリオに対して、SecCodeBench-V2は、機能検証とセキュリティ検証の両方に対して実行可能な概念実証(PoC)テストケースを提供する。
すべてのテストケースは、セキュリティ専門家によって作成され、二重レビューされ、高い忠実さ、広範なカバレッジ、信頼性の高い土台真実が保証されます。
ベンチマーク自体以外にも、モデルを主に動的実行を通じて評価する統合評価パイプラインを構築しています。
ほとんどのシナリオでは、分離された環境でモデル生成アーティファクトをコンパイルして実行し、PoCテストケースを実行して、機能的正当性とセキュリティ特性の両方を検証する。
セキュリティ問題を決定論的テストケースで判断できないシナリオでは、LLM-as-a-judgeのオラクルも使用します。
ヘテロジニアスなシナリオと難易度での性能を要約するために、シナリオと重大性に対する原則的なアグリゲーションを備えたPass@Kベースのスコアリングプロトコルを設計し、モデル全体の全体的および同等の評価を可能にする。
SecCodeBench-V2は、AIコーディングアシスタントのセキュリティ姿勢を評価するための厳密で再現可能な基盤を提供する。
ベンチマークはhttps://github.com/alibaba/sec-code-bench.comで公開されている。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - DUALGUAGE: Automated Joint Security-Functionality Benchmarking for Secure Code Generation [18.208257676875586]
大規模言語モデル(LLM)と自律型コーディングエージェントは、広範囲の非メタルドメインにまたがるソフトウェア生成にますます利用されている。
セキュアなコード生成のための既存のベンチマークと評価は、脆弱性の削減、正当性保存の無視、あるいは別々のデータセットのセキュリティと機能の評価のみを短時間で測定する。
GAUGEは,LLM生成コードのセキュリティと正しさを一斉に評価するために設計された,最初の完全自動ベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T22:26:14Z) - FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding [11.846768103642583]
FeatBenchは、機能実装に焦点を当てた、バイブコーディングのための新しいベンチマークである。
FeatBenchは、ベンチマークを進化させるための品質と完全に自動化されたパイプラインを保証するために、マルチレベルのフィルタリングパイプライン上に構築されている。
我々の評価によると、ビブ符号化パラダイムにおける機能実装は重要な課題であり、最高成功率は29.94%である。
論文 参考訳(メタデータ) (2025-09-26T11:47:50Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - CoreCodeBench: A Configurable Multi-Scenario Repository-Level Benchmark [36.535790823814516]
大規模言語モデル(LLM)は、ますます高度なコード処理能力を示している。
エンジニアリングレベルのコードでのパフォーマンスを評価することは、依然として難しい。
既存のリポジトリレベルのベンチマークは主に、コード生成やバグ修正のような単一のシナリオに焦点を当てている。
リポジトリを包括的なテストケースに変換する、完全に自動化されたパイプラインであるCorePipeを紹介します。
論文 参考訳(メタデータ) (2025-07-04T09:42:04Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。