論文の概要: Construction and Evaluation of LLM-based agents for Semi-Autonomous penetration testing
- arxiv url: http://arxiv.org/abs/2502.15506v1
- Date: Fri, 21 Feb 2025 15:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:10.620151
- Title: Construction and Evaluation of LLM-based agents for Semi-Autonomous penetration testing
- Title(参考訳): 半自動貫入試験のためのLCM系エージェントの構築と評価
- Authors: Masaya Kobayashi, Masane Fuchi, Amar Zanashir, Tomonori Yoneda, Tomohiro Takagi,
- Abstract要約: 高性能大規模言語モデル (LLM) は様々な領域にまたがって進歩している。
サイバーセキュリティのような高度な専門分野において、完全な自律性は依然として課題である。
本稿では,複数のLLMモジュールを用いて,複雑なサイバーセキュリティを半自律的に実行するシステムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the emergence of high-performance large language models (LLMs) such as GPT, Claude, and Gemini, the autonomous and semi-autonomous execution of tasks has significantly advanced across various domains. However, in highly specialized fields such as cybersecurity, full autonomy remains a challenge. This difficulty primarily stems from the limitations of LLMs in reasoning capabilities and domain-specific knowledge. We propose a system that semi-autonomously executes complex cybersecurity workflows by employing multiple LLMs modules to formulate attack strategies, generate commands, and analyze results, thereby addressing the aforementioned challenges. In our experiments using Hack The Box virtual machines, we confirmed that our system can autonomously construct attack strategies, issue appropriate commands, and automate certain processes, thereby reducing the need for manual intervention.
- Abstract(参考訳): GPT、Claude、Geminiといった高性能な大規模言語モデル(LLM)が出現すると、タスクの自律的および半自律的な実行は、様々な領域で大幅に進歩した。
しかし、サイバーセキュリティのような高度な専門分野において、完全な自律性は依然として課題である。
この難しさは主に、推論能力とドメイン固有の知識におけるLLMの限界に起因している。
攻撃戦略を定式化し、コマンドを生成し、結果を解析するために複数のLSMモジュールを用いて、複雑なサイバーセキュリティワークフローを半自動で実行するシステムを提案する。
Hack The Box仮想マシンを用いた実験では,攻撃戦略を自律的に構築し,適切なコマンドを発行し,特定のプロセスを自動化することで,手作業による介入の必要性を低減できることを確認した。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。
大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。
我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:10:39Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - From Sands to Mansions: Simulating Full Attack Chain with LLM-Organized Knowledge [10.065241604400223]
マルチステージ攻撃シミュレーションはシステム評価効率を高めるための有望なアプローチを提供する。
完全なアタックチェーンをシミュレートするのは複雑で、セキュリティ専門家からはかなりの時間と専門知識が必要です。
我々は、外部攻撃ツールと脅威情報レポートに基づいて、完全な攻撃チェーンを自律的にシミュレートするシステムであるAuroraを紹介する。
論文 参考訳(メタデータ) (2024-07-24T01:33:57Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Automating Cyber Threat Hunting Using NLP, Automated Query Generation,
and Genetic Perturbation [8.669461942767098]
We have developed the WILEE system that cyber threat hunting by translating high-level threat descriptions into many possible concrete implementation。
高レベル)抽象的および(低レベル)具体的な実装は、カスタムドメイン固有の言語を使用して表現される。
WILEEは、DSLで書かれた他のロジックと共に実装を使用して、クエリを自動的に生成し、潜在的な敵に結びついた仮説を確認(または否定)する。
論文 参考訳(メタデータ) (2021-04-23T13:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。