論文の概要: ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?
- arxiv url: http://arxiv.org/abs/2605.11086v1
- Date: Mon, 11 May 2026 18:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.340068
- Title: ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?
- Title(参考訳): ExploitGym:AIエージェントはセキュリティの脆弱性を本当の攻撃に変えられるか?
- Authors: Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song,
- Abstract要約: 低レベルのプログラム推論を必要とするため、爆発は難しい作業です。
その重要性と診断価値にもかかわらず、搾取は未評価のままである。
ExploitGymは、AIエージェントのエクスプロイト能力に関する大規模で多様な、現実的なベンチマークである。
- 参考スコア(独自算出の注目度): 92.21756459993695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents are rapidly gaining capabilities that could significantly reshape cybersecurity, making rigorous evaluation urgent. A critical capability is exploitation: turning a vulnerability, which is not yet an attack, into a concrete security impact, such as unauthorized file access or code execution. Exploitation is a particularly challenging task because it requires low-level program reasoning (e.g., about memory layout), runtime adaptation, and sustained progress over long horizons. Meanwhile, it is inherently dual-use, supporting defensive workflows while lowering the barrier for offense. Despite its importance and diagnostic value, exploitation remains under-evaluated. To address this gap, we introduce ExploitGym, a large-scale, diverse, realistic benchmark on the exploitation capabilities of AI agents. Given a program input that triggers a vulnerability, ExploitGym tasks agents with progressively extending it into a working exploit. The benchmark comprises 898 instances sourced from real-world vulnerabilities across three domains, including userspace programs, Google's V8 JavaScript engine, and the Linux kernel. We vary the security protections applied to each instance, isolating their impact on agent performance. All configurations are packaged in reproducible containerized environments. Our evaluation shows that while exploitation remains challenging, frontier models can successfully exploit a non-trivial fraction of vulnerabilities. For example, the strongest configurations are Anthropic's latest model Claude Mythos Preview and OpenAI's GPT-5.5, which produce working exploits for 157 and 120 instances, respectively. Notably, even with widely used defenses enabled, models retain non-trivial success rates. These results establish ExploitGym as an effective testbed for exploitation and highlight the growing cybersecurity risks posed by increasingly capable AI agents.
- Abstract(参考訳): AIエージェントは、サイバーセキュリティを大幅に作り直す能力が急速に向上し、厳格な評価が緊急になっている。
重要な機能は、攻撃ではない脆弱性を、不正なファイルアクセスやコード実行など、具体的なセキュリティインパクトに変えることである。
エクスプロイテーションは、低レベルのプログラム推論(例えば、メモリレイアウトについて)、実行時適応、長い地平線上での継続的な進捗を必要とするため、特に難しいタスクである。
一方、これは本質的に二重利用であり、攻撃の障壁を低くしながら防御ワークフローをサポートする。
その重要性と診断価値にもかかわらず、搾取は未評価のままである。
このギャップを解決するために、AIエージェントのエクスプロイト能力に関する大規模で多様で現実的なベンチマークであるExploitGymを紹介します。
脆弱性をトリガーするプログラムインプットが与えられたとき、ExploitGymはエージェントを処理し、それを段階的にワーキングエクスプロイトに拡張する。
このベンチマークは、ユーザスペースプログラム、GoogleのV8 JavaScriptエンジン、Linuxカーネルを含む3つのドメインにわたる現実世界の脆弱性に由来する898のインスタンスで構成されている。
私たちは各インスタンスに適用されるセキュリティ保護を変更し、エージェントのパフォーマンスへの影響を分離します。
すべての構成は再現可能なコンテナ環境にパッケージ化される。
我々の評価では、エクスプロイトは依然として困難なままだが、フロンティアモデルは非自明な少数の脆弱性をうまく活用できる。
例えば、Anthropicの最新モデルであるClaude Mythos PreviewとOpenAIのGPT-5.5は157インスタンスと120インスタンスでそれぞれ動作可能なエクスプロイトを生成する。
特に、広く使用されている防衛が有効であるとしても、モデルは非自明な成功率を維持する。
これらの結果は、エクスプロイトGymを搾取のための効果的なテストベッドとして確立し、ますます有能なAIエージェントによって引き起こされるサイバーセキュリティリスクの増大を強調している。
関連論文リスト
- A Multi-Agent Framework for Automated Exploit Generation with Constraint-Guided Comprehension and Reflection [30.539826266048014]
Vulnsageは自動エクスプロイト生成のためのマルチエージェントフレームワークである。
explosionjsのような最先端のツールよりも34.64%のエクスプロイトを生成する。
Vulnsageは、現実世界のシナリオで146のゼロデイ脆弱性を発見し、検証した。
論文 参考訳(メタデータ) (2026-04-06T19:47:17Z) - Building Browser Agents: Architecture, Security, and Practical Solutions [0.0]
本稿では,実運用ブラウザエージェントの構築と運用から得られた知見について述べる。
モデル能力はエージェントのパフォーマンスを制限しない。
現実世界のインシデントに対するセキュリティ分析は、インジェクションの迅速な攻撃によって、汎用的な自律運転が基本的に安全でないことを明らかにしている。
論文 参考訳(メタデータ) (2025-11-22T12:18:35Z) - HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities [20.201614123811872]
HackWorldは、視覚的インタラクションを通じてWebアプリケーションの脆弱性を悪用するコンピュータ利用エージェントの機能を評価するための最初のフレームワークである。
11のフレームワークと7つの言語にまたがる36の現実世界のアプリケーションが含まれており、インジェクションの脆弱性、認証バイパス、安全でない入力処理といった現実的な欠陥を特徴としている。
複雑なWebインターフェースをナビゲートしながら、これらの弱点を特定し、活用するためのCUAの能力をテストする。
論文 参考訳(メタデータ) (2025-10-14T06:52:15Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [81.73540246946015]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。