Fugu-MT 論文翻訳(概要): D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security

論文の概要: D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security

arxiv url: http://arxiv.org/abs/2502.10931v1
Date: Sat, 15 Feb 2025 23:43:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.743977
Title: D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security
Title（参考訳）: D-CIPHER: セキュリティ強化のための計画・不均一実行による動的協調型インテリジェントエージェント
Authors: Meet Udeshi, Minghao Shao, Haoran Xi, Nanda Rani, Kimberly Milner, Venkata Sai Charan Putrevu, Brendan Dolan-Gavitt, Sandeep Kumar Shukla, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Muhammad Shafique,
Abstract要約: 大規模言語モデル(LLM)は、サイバーセキュリティにおいて様々な方法で使用されている。 CTF(Capture the Flag)の課題は、LLMエージェントの自動タスク計画能力を評価するためのベンチマークとして機能する。協調型CTF問題解決のためのD-CIPHERマルチエージェントLLMフレームワークを提案する。
参考スコア（独自算出の注目度）: 22.86304661035188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have been used in cybersecurity in many ways, including their recent use as intelligent agent systems for autonomous security analysis. Capture the Flag (CTF) challenges serve as benchmarks for assessing the automated task-planning abilities of LLM agents across various cybersecurity skill sets. Early attempts to apply LLMs for solving CTF challenges relied on single-agent systems, where feedback was restricted to a single reasoning-action loop. This approach proved inadequate for handling complex CTF tasks. Drawing inspiration from real-world CTF competitions, where teams of experts collaborate, we introduce the D-CIPHER multi-agent LLM framework for collaborative CTF challenge solving. D-CIPHER integrates agents with distinct roles, enabling dynamic feedback loops to enhance reasoning on CTF challenges. It introduces the Planner-Executor agent system, consisting of a Planner agent for overall problem-solving along with multiple heterogeneous Executor agents for individual tasks, facilitating efficient allocation of responsibilities among the LLMs. Additionally, D-CIPHER incorporates an Auto-prompter agent, which improves problem-solving by exploring the challenge environment and generating a highly relevant initial prompt. We evaluate D-CIPHER on CTF benchmarks using multiple LLM models and conduct comprehensive studies to highlight the impact of our enhancements. Our results demonstrate that the multi-agent D-CIPHER system achieves a significant improvement in challenges solved, setting a state-of-the-art performance on three benchmarks: 22.0% on NYU CTF Bench, 22.5% on Cybench, and 44.0% on HackTheBox. D-CIPHER is available at https://github.com/NYU-LLM-CTF/nyuctf_agents as the nyuctf_multiagent package.
Abstract（参考訳）: 大規模言語モデル(LLM)は、近年、自律的なセキュリティ分析のためのインテリジェントエージェントシステムとして使われているなど、サイバーセキュリティにおいて多くの方法で使用されている。キャプチャー・ザ・フラッグ(CTF)の課題は、様々なサイバーセキュリティスキルセットにわたるLLMエージェントのタスク計画能力を評価するためのベンチマークとして機能する。 CTF問題にLSMを適用しようとする初期の試みは、単一エージェントシステムに依存しており、フィードバックは単一の推論-アクションループに制限されていた。このアプローチは複雑なCTFタスクを扱うのに不十分であることが証明された。専門家のチームが協力する現実世界のCTFコンペティションからインスピレーションを得て、協調CTF課題解決のためのD-CIPHERマルチエージェントLLMフレームワークを紹介します。 D-CIPHERはエージェントを異なる役割に統合し、動的フィードバックループによってCTF課題の推論を強化することができる。 Planner-Executorエージェントシステムを導入し、Plannerエージェントと複数の不均一なExecutorエージェントを個別のタスクで組み合わせ、LLM間の責任の効率的な割り当てを容易にする。さらに、D-CIPHERにはAuto-prompterエージェントが組み込まれており、課題環境を探索し、非常に関連性の高い初期プロンプトを生成することで問題解決を改善する。複数のLCMモデルを用いて,CTFベンチマーク上でのD-CIPHERの評価を行い,拡張の影響を明らかにするための総合的研究を行った。以上の結果から,NYU CTF Benchの22.0%,Cybenchの22.5%,HackTheBoxの44.0%の3つのベンチマークにおいて,マルチエージェントD-CIPHERシステムが課題の大幅な改善を実現していることが示された。 D-CIPHERはnyuctf_multiagentパッケージとしてhttps://github.com/NYU-LLM-CTF/nyuctf_agentsで利用可能である。

関連論文リスト

KARL: Knowledge Agents via Reinforcement Learning [63.627906947205624]
本稿では,強化学習による企業検索エージェントの訓練システムを提案する。 KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
論文参考訳（メタデータ） (2026-03-05T14:30:25Z)
AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文参考訳（メタデータ） (2026-01-28T13:49:18Z)
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。 MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。 MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文参考訳（メタデータ） (2026-01-14T17:57:43Z)
Scaling Agents via Continual Pre-training [80.97989245493326]
我々は,エージェント連続事前学習(Agentic CPT)を深層研究エージェント訓練パイプラインに組み込んで,強力なエージェント基礎モデルを構築することを提案する。我々は,AgentFounder-30Bを10のベンチマークで評価し,強力なツール使用能力を保ちながら最先端のパフォーマンスを実現した。
論文参考訳（メタデータ） (2025-09-16T17:57:19Z)
Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark [18.653746750609546]
エージェントの成功を促す重要な要因を体系的に検討し、LLMをベースとした効果的な攻撃セキュリティエージェントを構築するための詳細なレシピを提供する。 CTFJudgeは、LCMを審査員として活用し、エージェントトラジェクトリを分析し、CTF解決ステップ全体にわたってきめ細かい評価を行うフレームワークである。高速な評価のために、バイナリエクスプロイト、Web、リバースエンジニアリング、法医学、暗号の50の代表的なCTF課題をキュレートしたベンチマークであるCTFTinyを提案する。
論文参考訳（メタデータ） (2025-08-05T03:25:09Z)
Measuring and Augmenting Large Language Models for Solving Capture-the-Flag Challenges [10.476975554297095]
CTFコンペティションはサイバーセキュリティ教育とトレーニングに不可欠である。大規模言語モデル(LLM)が進化するにつれて、CTFの課題解決を自動化する能力への関心が高まっている。我々はCTFAgentを提案する。CTFAgentはCTF問題解決のための新しいフレームワークである。
論文参考訳（メタデータ） (2025-06-21T08:56:20Z)
CRAKEN: Cybersecurity LLM Agent with Knowledge-Based Execution [22.86304661035188]
大規模言語モデル(LLM)エージェントは、サイバーセキュリティタスクを自動化することができ、再設計することなく、進化するサイバーセキュリティの状況に適応することができる。トレーニングデータ以外の最新のサイバーセキュリティの専門知識にアクセスし、複雑なタスク計画に新たな知識を統合することだ。本稿では,3つのコア機構を通じて,サイバーセキュリティ能力を向上させる知識ベースLLMエージェントフレームワークであるCRAKENを提案する。
論文参考訳（メタデータ） (2025-05-21T11:01:11Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。 14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
Privacy-Enhancing Paradigms within Federated Multi-Agent Systems [47.76990892943637]
LLMベースのマルチエージェントシステム(MAS)は、複数のエージェントを統合することで複雑な問題を解決するのに非常に効果的であることが証明されている。本稿では、フェデレーションMASの概念を紹介し、フェデレーションMASと従来のFLの根本的な違いを明らかにする。 1)エージェント間の異種プライバシープロトコル,2)多人数会話の構造的差異,3)動的会話ネットワーク構造などである。これらの課題に対処するため、我々はEPEAgent(Embedded Privacy-Enhancing Agents)を提案し、これはRetrieval-Augmented GenerationフェーズとRetrieval-Augmented Generationフェーズにシームレスに統合する革新的なソリューションである。
論文参考訳（メタデータ） (2025-03-11T08:38:45Z)
Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文参考訳（メタデータ） (2024-10-03T04:07:51Z)
Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities [46.34031902647788]
本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。セキュリティ脆弱性を発見して悪用するエージェントの能力を改善するために、新しいツールとインターフェースを導入します。 390 CTF課題に関する実証分析により,これらの新しいツールとインターフェースがエージェントの性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-09-24T15:06:01Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Collaboration Dynamics and Reliability Challenges of Multi-Agent LLM Systems in Finite Element Analysis [3.437656066916039]
インターエイジェントダイナミクスが推論の品質と信頼性にどのように影響するかは、まだ不明である。線形弾性有限要素解析(FEA)のためのAutoGenベースのマルチエージェントフレームワークを用いたこれらのメカニズムについて検討する。 1,120のコントロールされたトライアルから、コラボレーションの有効性は、チームのサイズよりも機能的な相補性に依存することが分かりました。
論文参考訳（メタデータ） (2024-08-23T23:11:08Z)
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T20:52:13Z)
On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。本稿では, 種々のシステム構造の耐震性について考察する。
論文参考訳（メタデータ） (2024-08-02T03:25:20Z)
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。 EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-06-20T11:49:23Z)
Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。 6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-05-29T18:08:37Z)
Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。 Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文参考訳（メタデータ） (2024-05-09T17:49:04Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)
A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文参考訳（メタデータ） (2023-10-03T16:05:48Z)
Robustness Testing for Multi-Agent Reinforcement Learning: State Perturbations on Critical Agents [2.5204420653245245]
MARL(Multi-Agent Reinforcement Learning)は、スマート交通や無人航空機など、多くの分野に広く応用されている。本研究は,MARLのための新しいロバストネステストフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-09T02:26:28Z)
Learning to Solve Complex Tasks by Talking to Agents [39.08818632689814]
人間は、単純なサブタスクを解くことができるAIアシスタントのような既存のエージェントと対話することで、複雑な問題を解決することが多い。一般的なNLPベンチマークは、タスク毎に自己充足型モデルを開発することを目的としている。我々は,異なる能力を持つ4つのエージェントに対して「会話」によって解決されるように設計された3種類の複雑な推論タスクを含むCommaQAという新しいベンチマークを提案する。
論文参考訳（メタデータ） (2021-10-16T10:37:34Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)
Counterfactual Multi-Agent Policy Gradients [47.45255170608965]
本稿では,COMAポリシーグラデーションと呼ばれる新しいマルチエージェントアクター批判手法を提案する。 COMAは中央集権的な批評家を用いてQ-関数を推定し、エージェントのポリシーを最適化する。我々は,StarCraftユニットのマイクロマネジメントにおけるテストベッドにおけるCOMAの評価を行った。
論文参考訳（メタデータ） (2017-05-24T18:52:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。