論文の概要: SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?
- arxiv url: http://arxiv.org/abs/2605.26548v1
- Date: Tue, 26 May 2026 04:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.676458
- Title: SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?
- Title(参考訳): SEC-bench Pro: 言語モデルは長期のソフトウェアセキュリティタスクを解決できるか?
- Authors: Hwiwon Lee, Jiawei Liu, Dongjun Kim, Ziqi Zhang, Chunqiu Steven Xia, Lingming Zhang,
- Abstract要約: SEC-bench Proは、クリティカルで複雑なソフトウェアシステム上で、エージェントバグハンティングを測定するためのベンチマークである。
V8とSpiderMonkeyにまたがる183の検証済み脆弱性でSEC-bench Proをインスタンス化する。
評価の結果,両エンジンにおいて,フロンティアモデルを用いた符号化エージェントが40%以下であることがわかった。
- 参考スコア(独自算出の注目度): 26.62307092688903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now support automated software security tasks, including vulnerability discovery and proof-of-concept (PoC) generation. Existing benchmarks do not faithfully evaluate LLMs in real-world bug hunting scenarios because they rely on fuzzing harnesses, target-specific descriptions, or vulnerability-reproduction tasks. We present SEC-bench Pro, a benchmark for measuring agent bug hunting on critical, high-complexity software systems. This work discloses reports with concrete PoC inputs and links fixes into reproducible tasks through a three-phase pipeline for vulnerability collection, environment reconstruction, and oracle-based validation. We instantiate SEC-bench Pro with 183 validated vulnerabilities across V8 and SpiderMonkey, including a V8 subset with more than $1.5 million in cumulative Google Vulnerability Reward Program awards. These instances span memory-safety, sandbox, JIT, and race-condition bugs under browser-grade and runtime-grade execution conditions. Our evaluation shows that coding agents with frontier models remain below 40% success on both evaluated engines. The open-weight Kimi-K2.6 baseline reaches 11.7% on V8, while the strongest frontier configuration reaches 32.0% on V8 and 38.8% on SpiderMonkey. ClaudeCode and Codex solve complementary instance sets, and their two-agent union reaches 37.9% on V8 and 48.8% on SpiderMonkey. SEC-bench Pro provides robust environments for assessing LLM-based security agents and exposes limitations in long-horizon bug hunting tasks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、脆弱性発見や概念実証(PoC)生成を含む自動ソフトウェアセキュリティタスクをサポートするようになった。
既存のベンチマークでは、ファジィハーネス、ターゲット固有の記述、脆弱性再現タスクに依存するため、現実のバグハンティングシナリオにおいてLLMを忠実に評価していない。
SEC-bench Proは、クリティカルで複雑なソフトウェアシステム上で、エージェントバグハンティングを測定するためのベンチマークである。
この研究は、具体的なPoC入力でレポートを公開し、脆弱性収集、環境再構築、オラクルベースの検証のための3フェーズパイプラインを通じて修正を再現可能なタスクにリンクする。
V8とSpiderMonkeyにまたがる183の脆弱性を検証したSEC-bench Proをインスタンス化し、累積的なGoogle Vulnerability Reward Programアワードで150万ドル以上を支払ったV8サブセットを含めます。
これらのインスタンスは、ブラウザグレードおよびランタイムグレードの実行条件下で、メモリセーフ、サンドボックス、JIT、および競合条件バグにまたがる。
評価の結果,両エンジンにおいて,フロンティアモデルを用いた符号化エージェントが40%以下であることがわかった。
オープンウェイトのKim-K2.6ベースラインはV8で11.7%、最強のフロンティア構成はV8で32.0%、スパイダーモンキーで38.8%に達する。
ClaudeCodeとCodexは相補的なインスタンスセットを解決し、2エージェント連合はV8では37.9%、SpiderMonkeyでは48.8%に達した。
SEC-bench Proは、LLMベースのセキュリティエージェントを評価するための堅牢な環境を提供し、長距離バグハンティングタスクの制限を公開する。
関連論文リスト
- Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack [51.54835866517547]
BenchJackは、コーディングエージェントがベンチマークを監査し、報酬をハックする可能性のあるエクスプロイトを識別するシステムである。
BenchJackを、ソフトウェアエンジニアリング、Webナビゲーション、デスクトップコンピューティング、端末操作にまたがる10の人気のあるエージェントベンチマークに適用する。
BenchJackは、単一のタスクを解決することなく、ほとんどのベンチマークでほぼ完璧なスコアを達成する報奨ハックのエクスプロイトを合成する。
論文 参考訳(メタデータ) (2026-05-12T19:22:45Z) - ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks? [92.21756459993695]
低レベルのプログラム推論を必要とするため、爆発は難しい作業です。
その重要性と診断価値にもかかわらず、搾取は未評価のままである。
ExploitGymは、AIエージェントのエクスプロイト能力に関する大規模で多様な、現実的なベンチマークである。
論文 参考訳(メタデータ) (2026-05-11T18:00:14Z) - QASecClaw: A Multi-Agent LLM Approach for False Positive Reduction in Static Application Security Testing [0.0]
静的アプリケーションセキュリティテストと,大規模言語モデルに基づくコンテキストコードレビューのコーディングを組み合わせたマルチエージェントアプローチであるQASecClawを提案する。
SASTエンジンが最初に脆弱性を報告し、Large Language ModelベースのSAST Filter Agentがソースコードコンテキストで各発見をレビューし、それが真正か偽正かを決定する。
論文 参考訳(メタデータ) (2026-05-03T14:05:52Z) - Synthesizing Multi-Agent Harnesses for Vulnerability Discovery [8.518689779459974]
LLMエージェントは、人間の監査官や自動ファジッターが何十年も見逃していた、真のセキュリティ脆弱性を見つけ始めている。
実際には、作業は複数のエージェントに分割され、ハーネスによってワイヤリングされる。どの役割が存在するかを修正するプログラム、どのように情報を渡すか、どのツールを呼び出すか、リトライがどのように調整されるかである。
AgentFlowは、エージェントの役割、プロンプト、ツール、通信トポロジ、調整プロトコルを共同でカバーする型付きグラフDSLで、両方の制限に対処する。
論文 参考訳(メタデータ) (2026-04-22T17:27:40Z) - Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文 参考訳(メタデータ) (2026-04-06T15:27:05Z) - Internal Safety Collapse in Frontier Large Language Models [65.00730294617382]
この研究は、フロンティア大言語モデル(LLM)における重要な障害モードを特定する。
特定のタスク条件下では、モデルは有害なコンテンツを連続的に生成し、そうでなければ良質なタスクを実行する状態に入る。
有害なコンテンツを生成することが唯一有効な完了であるドメインタスクを通じてISCをトリガーするフレームワークであるTVDを紹介する。
論文 参考訳(メタデータ) (2026-03-04T12:55:34Z) - CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability [50.57373283154859]
CVE-Factoryは、脆弱性タスクを自動変換するエキスパートレベルの品質を実現するための、最初のマルチエージェントフレームワークである。
最新の現実的な脆弱性についても評価され、66.2%の成功が証明されている。
コードセキュリティにおけるエージェントタスクの大規模スケーリングとして,1000以上の実行可能なトレーニング環境を合成する。
論文 参考訳(メタデータ) (2026-02-03T02:27:16Z) - $α^3$-SecBench: A Large-Scale Evaluation Suite of Security, Resilience, and Trust for LLM-based UAV Agents over 6G Networks [3.099103925863002]
LLMをベースとしたUAVエージェントのセキュリティ意識の自律性を評価するための,初の大規模評価スイートであるSecBenchを,現実的な対人干渉下で導入する。
我々は、175の脅威タイプにまたがる113,475のミッションのコーパスからサンプリングされた何千もの敵意的に強化されたUAVエピソードを使用して、大手産業プロバイダやAI研究所から23の最先端のLSMを評価した。正規化された総合スコアは12.9%から57.1%の範囲で、異常検出とセキュリティに配慮した自律的な意思決定の間に大きなギャップがあることを強調している。
論文 参考訳(メタデータ) (2026-01-26T18:25:07Z) - SeBERTis: A Framework for Producing Classifiers of Security-Related Issue Reports [8.545800179148442]
SEBERTISは、Deep Neural Networks(DNN)を語彙的キューに依存しない分類器として訓練するフレームワークである。
当社のフレームワークは,1万件のGitHubイシューレポートをキュレートしたコーパスのセキュリティ関連問題を検出する上で,0.9880のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-12-17T01:23:11Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。