Fugu-MT 論文翻訳(概要): AutoPenBench: Benchmarking Generative Agents for Penetration Testing

論文の概要: AutoPenBench: Benchmarking Generative Agents for Penetration Testing

arxiv url: http://arxiv.org/abs/2410.03225v2
Date: Mon, 28 Oct 2024 17:05:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 02:54:39.802941
Title: AutoPenBench: Benchmarking Generative Agents for Penetration Testing
Title（参考訳）: AutoPenBench: 侵入テストのための生成エージェントのベンチマーク
Authors: Luca Gioacchini, Marco Mellia, Idilio Drago, Alexander Delsanto, Giuseppe Siracusano, Roberto Bifulco,
Abstract要約: 本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
参考スコア（独自算出の注目度）: 42.681170697805726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative AI agents, software systems powered by Large Language Models (LLMs), are emerging as a promising approach to automate cybersecurity tasks. Among the others, penetration testing is a challenging field due to the task complexity and the diverse strategies to simulate cyber-attacks. Despite growing interest and initial studies in automating penetration testing with generative agents, there remains a significant gap in the form of a comprehensive and standard framework for their evaluation and development. This paper introduces AutoPenBench, an open benchmark for evaluating generative agents in automated penetration testing. We present a comprehensive framework that includes 33 tasks, each representing a vulnerable system that the agent has to attack. Tasks are of increasing difficulty levels, including in-vitro and real-world scenarios. We assess the agent performance with generic and specific milestones that allow us to compare results in a standardised manner and understand the limits of the agent under test. We show the benefits of AutoPenBench by testing two agent architectures: a fully autonomous and a semi-autonomous supporting human interaction. We compare their performance and limitations. For example, the fully autonomous agent performs unsatisfactorily achieving a 21% Success Rate (SR) across the benchmark, solving 27% of the simple tasks and only one real-world task. In contrast, the assisted agent demonstrates substantial improvements, with 64% of SR. AutoPenBench allows us also to observe how different LLMs like GPT-4o or OpenAI o1 impact the ability of the agents to complete the tasks. We believe that our benchmark fills the gap with a standard and flexible framework to compare penetration testing agents on a common ground. We hope to extend AutoPenBench along with the research community by making it available under https://github.com/lucagioacchini/auto-pen-bench.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用したソフトウェアシステムであるジェネレーティブAIエージェントは、サイバーセキュリティタスクを自動化するための有望なアプローチとして浮上している。その中には、タスクの複雑さとサイバー攻撃をシミュレートする多様な戦略があるため、侵入テストは難しい分野である。生成剤による浸透試験の自動化に関する関心や初期の研究は増大しているが、その評価と開発のための包括的かつ標準的枠組みの形式には大きなギャップが残っている。本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。タスクは、インビトロや現実世界のシナリオなど、難易度を増大させる。エージェントのパフォーマンスを汎用的で特定のマイルストーンで評価し、その結果を標準化された方法で比較し、テスト中のエージェントの限界を理解する。完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。私たちは彼らのパフォーマンスと限界を比較します。例えば、完全自律エージェントは、ベンチマーク全体で21%の成功率(SR)を満足せずに達成し、単純なタスクの27%を解決し、実際のタスクは1つだけである。対照的に、補助剤はSRの64%で大幅に改善されている。 AutoPenBenchは、GPT-4oやOpenAI o1のような異なるLLMが、タスクを完了させるエージェントの能力にどのように影響するかを観察することを可能にする。当社のベンチマークは,共通基盤上での浸透試験エージェントを比較するための,標準的で柔軟なフレームワークとのギャップを埋めるものだと考えています。 AutoPenBenchは、リサーチコミュニティとともに、https://github.com/lucagioacchini/auto-pen-bench.comで利用可能になることを願っています。

関連論文リスト

OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents [0.0]
OSUniverseは、高度なGUIナビゲーションAIエージェントのための複雑なマルチモーダルデスクトップ指向タスクのベンチマークである。タスクを、基本的な精度のクリックからマルチステップ、ディクスタリティ、精度、エージェントからの明確な思考といった複雑さのレベルに分割する。ベンチマークは手動で評価できるが、平均エラー率2%未満の自動検証機構も導入する。
論文参考訳（メタデータ） (2025-05-06T14:29:47Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文参考訳（メタデータ） (2024-11-07T21:10:39Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。 SPA-Benchは3つの重要なコントリビューションを提供している。英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Assessing the Performance of Human-Capable LLMs -- Are LLMs Coming for Your Job? [0.0]
SelfScoreは、ヘルプデスクとプロのコンサルティングタスクにおけるLLM(Large Language Model)の自動エージェントのパフォーマンスを評価するために設計されたベンチマークである。このベンチマークは、問題の複雑さと応答の助け、スコアリングシステムにおける透明性と単純さの確保に関するエージェントを評価する。この研究は、特にAI技術が優れている地域では、労働者の移動の可能性への懸念を提起している。
論文参考訳（メタデータ） (2024-10-05T14:37:35Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文参考訳（メタデータ） (2024-01-10T16:57:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。