論文の概要: HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities
- arxiv url: http://arxiv.org/abs/2510.12200v1
- Date: Tue, 14 Oct 2025 06:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.212618
- Title: HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities
- Title(参考訳): HackWorld:Webアプリケーションの脆弱性の爆発に関するコンピュータ利用エージェントの評価
- Authors: Xiaoxue Ren, Penghao Jiang, Kaixin Li, Zhiyong Huang, Xiaoning Du, Jiaojiao Jiang, Zhenchang Xing, Jiamou Sun, Terry Yue Zhuo,
- Abstract要約: HackWorldは、視覚的インタラクションを通じてWebアプリケーションの脆弱性を悪用するコンピュータ利用エージェントの機能を評価するための最初のフレームワークである。
11のフレームワークと7つの言語にまたがる36の現実世界のアプリケーションが含まれており、インジェクションの脆弱性、認証バイパス、安全でない入力処理といった現実的な欠陥を特徴としている。
複雑なWebインターフェースをナビゲートしながら、これらの弱点を特定し、活用するためのCUAの能力をテストする。
- 参考スコア(独自算出の注目度): 20.201614123811872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web applications are prime targets for cyberattacks as gateways to critical services and sensitive data. Traditional penetration testing is costly and expertise-intensive, making it difficult to scale with the growing web ecosystem. While language model agents show promise in cybersecurity, modern web applications demand visual understanding, dynamic content handling, and multi-step interactions that only computer-use agents (CUAs) can perform. Yet, their ability to discover and exploit vulnerabilities through graphical interfaces remains largely unexplored. We present HackWorld, the first framework for systematically evaluating CUAs' capabilities to exploit web application vulnerabilities via visual interaction. Unlike sanitized benchmarks, HackWorld includes 36 real-world applications across 11 frameworks and 7 languages, featuring realistic flaws such as injection vulnerabilities, authentication bypasses, and unsafe input handling. Using a Capture-the-Flag (CTF) setup, it tests CUAs' capacity to identify and exploit these weaknesses while navigating complex web interfaces. Evaluation of state-of-the-art CUAs reveals concerning trends: exploitation rates below 12% and low cybersecurity awareness. CUAs often fail at multi-step attack planning and misuse security tools. These results expose the current limitations of CUAs in web security contexts and highlight opportunities for developing more security-aware agents capable of effective vulnerability detection and exploitation.
- Abstract(参考訳): Webアプリケーションは、重要なサービスや機密データへのゲートウェイとして、サイバー攻撃の主要なターゲットである。
従来の浸透テストは費用がかかり、専門知識が集中しているため、成長するWebエコシステムではスケールが難しい。
言語モデルエージェントはサイバーセキュリティにおける約束を示す一方で、現代のWebアプリケーションは視覚的理解、動的コンテンツハンドリング、コンピュータ利用エージェント(CUA)のみが実行できるマルチステップインタラクションを要求する。
しかし、グラフィカルインターフェースを通じて脆弱性を発見し、悪用する能力は、まだほとんど解明されていない。
私たちは、視覚的インタラクションを通じてWebアプリケーションの脆弱性を悪用するCUAの能力を体系的に評価する最初のフレームワークであるHackWorldを紹介します。
衛生化されたベンチマークとは異なり、HackWorldには11のフレームワークと7つの言語にわたる36の現実世界のアプリケーションが含まれており、インジェクション脆弱性、認証バイパス、安全でない入力処理などの現実的な欠陥が特徴である。
Capture-the-Flag(CTF)セットアップを使用して、CUAsのキャパシティをテストし、複雑なWebインターフェースをナビゲートしながらこれらの弱点を特定し、活用する。
最先端のCUAの評価は、エクスプロイトレートが12%未満、サイバーセキュリティの認知度が低い、というトレンドを浮き彫りにしている。
CUAは多段階の攻撃計画やセキュリティツールの誤用に失敗することが多い。
これらの結果は、WebセキュリティコンテキストにおけるCUAの現在の制限を明らかにし、効果的な脆弱性検出とエクスプロイトが可能なセキュリティ対応エージェントを開発する機会を浮き彫りにする。
関連論文リスト
- Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent [64.08182031659047]
我々は,MITRE ATT&CK Enterprise Matrix において,実世界の TTP に対応する最初のベンチマークである AdvCUA を提案する。
ReAct、AutoGPT、Gemini CLI、Cursor CLIの5つの主要なCUAを評価した。
結果は、現在のフロンティアCUAがOSのセキュリティ中心の脅威を十分にカバーしていないことを示している。
論文 参考訳(メタデータ) (2025-10-08T03:35:23Z) - A Systematization of Security Vulnerabilities in Computer Use Agents [1.3560089220432787]
我々は、現実のCUAのシステム的脅威分析と、敵条件下でのテストを行う。
CUAパラダイム特有のリスクのクラスを7つ同定し、3つの具体的なエクスプロイトシナリオを詳細に分析する。
これらのケーススタディは、現在のCUA実装にまたがるより深いアーキテクチャ上の欠陥を明らかにします。
論文 参考訳(メタデータ) (2025-07-07T19:50:21Z) - VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents [74.6761188527948]
完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、セキュリティとプライバシの重大なリスクを負う。
我々は、悪意のある命令がレンダリングされたユーザーインターフェイスに視覚的に埋め込まれた視覚的プロンプトインジェクション(VPI)攻撃について検討する。
実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。
論文 参考訳(メタデータ) (2025-06-03T05:21:50Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities [6.752938800468733]
大規模言語モデル(LLM)エージェントは、サイバー攻撃を自律的に行う能力が高まっている。
既存のベンチマークは、抽象化されたCapture the Flagコンペティションに制限されているか、包括的なカバレッジが欠如しているため、不足している。
私たちはCVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティ・コモン・脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
論文 参考訳(メタデータ) (2025-03-21T17:32:32Z) - BreachSeek: A Multi-Agent Automated Penetration Tester [0.0]
BreachSeekはAI駆動のマルチエージェントソフトウェアプラットフォームで、人間の介入なしに脆弱性を特定し、悪用する。
予備評価では、BreachSeekはローカルネットワーク内の悪用可能なマシンの脆弱性をうまく利用した。
今後の開発は、その能力を拡大し、サイバーセキュリティの専門家にとって欠かせないツールとして位置づけることを目指している。
論文 参考訳(メタデータ) (2024-08-31T19:15:38Z) - Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective [53.24281798458074]
顔認識システム(FRS)は、監視やユーザー認証を含む重要なアプリケーションにますます統合されている。
最近の研究によると、FRSの脆弱性は敵(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練)であることが明らかになっている。
論文 参考訳(メタデータ) (2024-05-21T13:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。