論文の概要: D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security
- arxiv url: http://arxiv.org/abs/2502.10931v1
- Date: Sat, 15 Feb 2025 23:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:29.326851
- Title: D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security
- Title(参考訳): D-CIPHER: セキュリティ強化のための計画・不均一実行による動的協調型インテリジェントエージェント
- Authors: Meet Udeshi, Minghao Shao, Haoran Xi, Nanda Rani, Kimberly Milner, Venkata Sai Charan Putrevu, Brendan Dolan-Gavitt, Sandeep Kumar Shukla, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Muhammad Shafique,
- Abstract要約: 大規模言語モデル(LLM)は、サイバーセキュリティにおいて様々な方法で使用されている。
CTF(Capture the Flag)の課題は、LLMエージェントの自動タスク計画能力を評価するためのベンチマークとして機能する。
協調型CTF問題解決のためのD-CIPHERマルチエージェントLLMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.86304661035188
- License:
- Abstract: Large Language Models (LLMs) have been used in cybersecurity in many ways, including their recent use as intelligent agent systems for autonomous security analysis. Capture the Flag (CTF) challenges serve as benchmarks for assessing the automated task-planning abilities of LLM agents across various cybersecurity skill sets. Early attempts to apply LLMs for solving CTF challenges relied on single-agent systems, where feedback was restricted to a single reasoning-action loop. This approach proved inadequate for handling complex CTF tasks. Drawing inspiration from real-world CTF competitions, where teams of experts collaborate, we introduce the D-CIPHER multi-agent LLM framework for collaborative CTF challenge solving. D-CIPHER integrates agents with distinct roles, enabling dynamic feedback loops to enhance reasoning on CTF challenges. It introduces the Planner-Executor agent system, consisting of a Planner agent for overall problem-solving along with multiple heterogeneous Executor agents for individual tasks, facilitating efficient allocation of responsibilities among the LLMs. Additionally, D-CIPHER incorporates an Auto-prompter agent, which improves problem-solving by exploring the challenge environment and generating a highly relevant initial prompt. We evaluate D-CIPHER on CTF benchmarks using multiple LLM models and conduct comprehensive studies to highlight the impact of our enhancements. Our results demonstrate that the multi-agent D-CIPHER system achieves a significant improvement in challenges solved, setting a state-of-the-art performance on three benchmarks: 22.0% on NYU CTF Bench, 22.5% on Cybench, and 44.0% on HackTheBox. D-CIPHER is available at https://github.com/NYU-LLM-CTF/nyuctf_agents as the nyuctf_multiagent package.
- Abstract(参考訳): 大規模言語モデル(LLM)は、近年、自律的なセキュリティ分析のためのインテリジェントエージェントシステムとして使われているなど、サイバーセキュリティにおいて多くの方法で使用されている。
キャプチャー・ザ・フラッグ(CTF)の課題は、様々なサイバーセキュリティスキルセットにわたるLLMエージェントのタスク計画能力を評価するためのベンチマークとして機能する。
CTF問題にLSMを適用しようとする初期の試みは、単一エージェントシステムに依存しており、フィードバックは単一の推論-アクションループに制限されていた。
このアプローチは複雑なCTFタスクを扱うのに不十分であることが証明された。
専門家のチームが協力する現実世界のCTFコンペティションからインスピレーションを得て、協調CTF課題解決のためのD-CIPHERマルチエージェントLLMフレームワークを紹介します。
D-CIPHERはエージェントを異なる役割に統合し、動的フィードバックループによってCTF課題の推論を強化することができる。
Planner-Executorエージェントシステムを導入し、Plannerエージェントと複数の不均一なExecutorエージェントを個別のタスクで組み合わせ、LLM間の責任の効率的な割り当てを容易にする。
さらに、D-CIPHERにはAuto-prompterエージェントが組み込まれており、課題環境を探索し、非常に関連性の高い初期プロンプトを生成することで問題解決を改善する。
複数のLCMモデルを用いて,CTFベンチマーク上でのD-CIPHERの評価を行い,拡張の影響を明らかにするための総合的研究を行った。
以上の結果から,NYU CTF Benchの22.0%,Cybenchの22.5%,HackTheBoxの44.0%の3つのベンチマークにおいて,マルチエージェントD-CIPHERシステムが課題の大幅な改善を実現していることが示された。
D-CIPHERはnyuctf_multiagentパッケージとしてhttps://github.com/NYU-LLM-CTF/nyuctf_agentsで利用可能である。
関連論文リスト
- Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities [46.34031902647788]
本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。
セキュリティ脆弱性を発見して悪用するエージェントの能力を改善するために、新しいツールとインターフェースを導入します。
390 CTF課題に関する実証分析により,これらの新しいツールとインターフェースがエージェントの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-09-24T15:06:01Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z) - Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。
Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文 参考訳(メタデータ) (2024-05-09T17:49:04Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - Learning to Solve Complex Tasks by Talking to Agents [39.08818632689814]
人間は、単純なサブタスクを解くことができるAIアシスタントのような既存のエージェントと対話することで、複雑な問題を解決することが多い。
一般的なNLPベンチマークは、タスク毎に自己充足型モデルを開発することを目的としている。
我々は,異なる能力を持つ4つのエージェントに対して「会話」によって解決されるように設計された3種類の複雑な推論タスクを含むCommaQAという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-16T10:37:34Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。