論文の概要: Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks
- arxiv url: http://arxiv.org/abs/2502.04227v2
- Date: Fri, 20 Jun 2025 12:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.394106
- Title: Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks
- Title(参考訳): LLMsはエンタープライズネットワークをハックできるか? 自律的に侵入テストを行うアクティブディレクトリネットワーク
- Authors: Andreas Happe, Jürgen Cito,
- Abstract要約: 本稿では,Large Language Model (LLM) 駆動の自律システムを用いて,現実のMicrosoft Active Directory (AD) エンタープライズネットワークにおける課題に対処することの実現可能性と有効性について検討する。
当社のプロトタイプであるcochiseは,Microsoft ADテストベッド(GOAD)内でアカウントを共用可能な,完全に自律的なLLM駆動フレームワークの最初のデモである。
主要な発見は、攻撃戦略を動的に適用し、コンテキスト間攻撃を実行し、シナリオ固有の攻撃パラメータを生成する能力を強調している。
- 参考スコア(独自算出の注目度): 3.11537581064266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Penetration-testing, while critical for validating defenses and uncovering vulnerabilities, is often limited by high operational costs and the scarcity of human expertise. This paper investigates the feasibility and effectiveness of using Large Language Model (LLM)-driven autonomous systems to address these challenges in real-world Microsoft Active Directory (AD) enterprise networks. Our novel prototype, cochise, represents the first demonstration of a fully autonomous, LLM-driven framework capable of compromising accounts within a real-life Microsoft AD testbed (GOAD). The evaluation deliberately utilizes GOAD to capture the intricate interactions and sometimes nondeterministic outcomes of live network pen-testing, moving beyond the limitations of synthetic benchmarks. We perform our empirical evaluation using five LLMs, comparing reasoning to non-reasoning models as well as including open-weight models. Through comprehensive quantitative and qualitative analysis, incorporating insights from cybersecurity experts, we demonstrate that autonomous LLMs can effectively conduct Assumed Breach simulations. Key findings highlight their ability to dynamically adapt attack strategies, perform inter-context attacks, and generate scenario-specific attack parameters. Cochise also exhibits robust self-correction mechanisms, automatically installing missing tools and rectifying invalid command generations. Critically, we find that the associated costs are competitive with those incurred by professional pen-testers, suggesting a path toward democratizing access to essential security testing for organizations with budgetary constraints. However, our research also illuminates existing limitations, including instances of LLM ``going down rabbit holes'', challenges in comprehensive information transfer between planning and execution modules, and critical safety concerns that necessitate human oversight.
- Abstract(参考訳): 侵入試験は防御の検証や脆弱性の発見に重要であるが、高い運用コストと人間の専門知識の不足によって制限されることが多い。
本稿では,現実のMicrosoft Active Directory(AD)エンタープライズネットワークにおけるこれらの課題に対処するために,Large Language Model(LLM)駆動の自律システムの実現可能性と有効性について検討する。
私たちの新しいプロトタイプであるcochiseは、実生活のMicrosoft ADテストベッド(GOAD)内でアカウントを妥協できる、完全に自律的でLLM駆動のフレームワークの最初のデモです。
この評価はGOADを故意に利用し、生のネットワークペンテストの複雑な相互作用や、時には非決定論的結果のキャプチャに利用し、合成ベンチマークの限界を越えている。
我々は5つのLLMを用いて実験的な評価を行い、推論と非推論モデル、およびオープンウェイトモデルの比較を行った。
サイバーセキュリティの専門家による洞察を取り入れた包括的定量的および質的分析を通じて、自律型LCMが仮定されたブレッハシミュレーションを効果的に実行できることを実証する。
主要な発見は、攻撃戦略を動的に適用し、コンテキスト間攻撃を実行し、シナリオ固有の攻撃パラメータを生成する能力を強調している。
Cochiseはまた、堅牢な自己訂正メカニズムを示し、行方不明のツールを自動的にインストールし、無効なコマンド世代を修正している。
批判的なことに、関連するコストは、プロのペンテスト担当者が引き起こしたコストと競合していることから、予算的な制約のある組織にとって不可欠なセキュリティテストへのアクセスを民主化するための道筋を示唆している。
しかし,本研究では,LLM ‘going down rabbit hole’’の例,計画モジュールと実行モジュール間の包括的情報伝達の課題,人間の監視を必要とする重大な安全上の懸念など,既存の制限も照らしている。
関連論文リスト
- Large Language Models powered Network Attack Detection: Architecture, Opportunities and Case Study [26.966976709473226]
大規模言語モデル(LLM)は膨大なテキストコーパスで訓練される。
これにより、ネットワークの脅威検出のための新しい扉が開かれた。
本稿では,LLMを用いたDDoS検出の設計を事例として紹介する。
論文 参考訳(メタデータ) (2025-03-24T09:40:46Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Risk-Aware Driving Scenario Analysis with Large Language Models [7.093690352605479]
大規模言語モデル(LLM)は、微妙な文脈関係、推論、複雑な問題解決を捉えることができる。
本稿では, LLM を利用して生成した運転シナリオのリスク認識分析を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-04T09:19:13Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Large Language Model as a Catalyst: A Paradigm Shift in Base Station Siting Optimization [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
提案するフレームワークは、検索拡張生成(RAG)を組み込んで、ドメイン固有の知識を取得してソリューションを生成するシステムの能力を高める。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Can LLMs Understand Computer Networks? Towards a Virtual System Administrator [15.469010487781931]
本稿では,大規模言語モデルによるコンピュータネットワークの理解に関する総合的研究を初めて行った。
我々は,プロプライエタリ(GPT4)とオープンソース(Llama2)モデルを用いたマルチコンピュータネットワーク上でのフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-19T07:41:54Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models [46.476439550746136]
近年,クラウド根本原因分析(RCA)における言語モデル (LLM) の適用が活発に検討されている。
RCAgentは、実用的でプライバシに配慮した産業RCA利用のためのツール強化LDM自律エージェントフレームワークである。
RCAgentはGPTファミリではなく、内部的にデプロイされたモデル上で動作し、フリーフォームのデータ収集とツールによる包括的な分析を行うことができる。
論文 参考訳(メタデータ) (2023-10-25T03:53:31Z) - LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
言語モデル(LLM)と浸透試験の共通点について検討する。
本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。
我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
論文 参考訳(メタデータ) (2023-10-17T17:15:41Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - Automatic Perturbation Analysis for Scalable Certified Robustness and
Beyond [171.07853346630057]
ニューラルネットワークに対する線形緩和に基づく摂動解析(LiRPA)は、堅牢性検証と認証防御のコアコンポーネントとなっている。
我々は任意のニューラルネットワーク構造上で摂動解析を可能にするための自動フレームワークを開発する。
我々は、Tiny ImageNetとDownscaled ImageNetのLiRPAベースの認証防御を実証する。
論文 参考訳(メタデータ) (2020-02-28T18:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。