Fugu-MT 論文翻訳(概要): CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale

論文の概要: CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale

arxiv url: http://arxiv.org/abs/2506.02548v2
Date: Wed, 08 Oct 2025 06:32:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-09 14:21:18.034345
Title: CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale
Title（参考訳）: CyberGym:AIエージェントの大規模実世界のサイバーセキュリティ能力を評価する
Authors: Zhun Wang, Tianneng Shi, Jingxuan He, Matthew Cai, Jialin Zhang, Dawn Song,
Abstract要約: 我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
参考スコア（独自算出の注目度）: 45.97598662617568
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI agents have significant potential to reshape cybersecurity, making a thorough assessment of their capabilities critical. However, existing evaluations fall short, because they are based on small-scale benchmarks and only measure static outcomes, failing to capture the full, dynamic range of real-world security challenges. To address these limitations, we introduce CyberGym, a large-scale benchmark featuring 1,507 real-world vulnerabilities across 188 software projects. Adjustable to different vulnerability analysis settings, CyberGym primarily tasks agents with generating a proof-of-concept test that reproduces a vulnerability, given only its text description and the corresponding codebase. Our extensive evaluation highlights that CyberGym effectively differentiates agents' and models' cybersecurity capabilities. Even the top-performing combinations only achieve a ~20% success rate, demonstrating the overall difficulty of CyberGym. Beyond static benchmarking, we show that CyberGym leads to the discovery of 35 zero-day vulnerabilities and 17 historically incomplete patches. These results underscore that CyberGym is not only a robust benchmark for measuring AI's progress in cybersecurity but also a platform for creating direct, real-world security impact.
Abstract（参考訳）: AIエージェントは、サイバーセキュリティを再構築する大きな可能性を秘めており、その能力を徹底的に評価している。しかし、既存の評価は、小規模のベンチマークに基づいており、静的な結果のみを計測しているため、現実のセキュリティ課題の完全なダイナミックな範囲を捉えていないため、不足している。これらの制限に対処するため、CyberGymは188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模なベンチマークである。異なる脆弱性分析設定に合わせて、CyberGymは主として、テキスト記述と対応するコードベースのみを前提として、脆弱性を再現する概念実証テストを生成するエージェントをタスクする。我々の広範な評価は、CyberGymがエージェントやモデルのサイバーセキュリティ能力を効果的に差別化していることを示している。トップパフォーマンスのコンビネーションでさえ、CyberGymの全体的な難しさを実証し、わずか20%の成功率しか達成していない。静的ベンチマーク以外にも、CyberGymは35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示している。これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。

関連論文リスト

Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security [0.0]
大規模言語モデル(LLM)は、ネイティブコードインタプリタを統合し、リアルタイム実行機能を実現する。これらの統合は、システムレベルのサイバーセキュリティの脅威をもたらす可能性がある。本稿では、CPU、メモリ、ディスクリソースの枯渇をターゲットとした1,260プロンプトからなる単純なベンチマークであるCIRCLE(Code-Interpreter Resilience Check for LLM Exploits)を提案する。
論文参考訳（メタデータ） (2025-07-25T16:06:16Z)
Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文参考訳（メタデータ） (2025-07-08T18:24:28Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.97472024483841]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文参考訳（メタデータ） (2025-06-13T13:54:30Z)
AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文参考訳（メタデータ） (2025-04-28T08:41:12Z)
Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。 Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文参考訳（メタデータ） (2025-03-22T23:59:17Z)
CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities [6.752938800468733]
大規模言語モデル(LLM)エージェントは、サイバー攻撃を自律的に行う能力が高まっている。既存のベンチマークは、抽象化されたCapture the Flagコンペティションに制限されているか、包括的なカバレッジが欠如しているため、不足している。私たちはCVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティ・コモン・脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
論文参考訳（メタデータ） (2025-03-21T17:32:32Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Demystifying RCE Vulnerabilities in LLM-Integrated Apps [20.01949990700702]
LangChainのようなフレームワークはLLM統合アプリ開発を支援し、カスタムアクションのためのコード実行ユーティリティ/APIを提供する。これらの機能は理論的にはリモートコード実行(RCE)脆弱性を導入し、プロンプトインジェクションによるリモートコード実行を可能にする。以前の研究では、これらのフレームワークのRCE脆弱性や、アプリケーションやエクスプロイトの影響を体系的に調査することはなかった。
論文参考訳（メタデータ） (2023-09-06T11:39:37Z)
SecureFalcon: Are We There Yet in Automated Software Vulnerability Detection with LLMs? [3.566250952750758]
SecureFalconは、Falcon-40Bモデルから派生した1億1100万のパラメータしか持たない革新的なモデルアーキテクチャである。 SecureFalconはバイナリ分類で94%の精度、マルチクラス化で最大92%、即時CPU推論時間を実現している。
論文参考訳（メタデータ） (2023-07-13T08:34:09Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。