論文の概要: EnIGMA: Enhanced Interactive Generative Model Agent for CTF Challenges
- arxiv url: http://arxiv.org/abs/2409.16165v1
- Date: Tue, 24 Sep 2024 15:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:27:07.031241
- Title: EnIGMA: Enhanced Interactive Generative Model Agent for CTF Challenges
- Title(参考訳): EnIGMA: CTFチャレンジのための対話型生成モデルエージェント
- Authors: Talor Abramovich, Meet Udeshi, Minghao Shao, Kilian Lieret, Haoran Xi, Kimberly Milner, Sofija Jancheska, John Yang, Carlos E. Jimenez, Farshad Khorrami, Prashanth Krishnamurthy, Brendan Dolan-Gavitt, Muhammad Shafique, Karthik Narasimhan, Ramesh Karri, Ofir Press,
- Abstract要約: 本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。
EnIGMAは、CTFチャレンジの成功率を改善するために、新しいエージェント・コンピュータ・インタフェース(ACI)を導入した。
我々は、LMエージェントがインタラクティブなコマンドラインユーティリティを実行できるインタラクティブエージェントツールのコンセプトを確立した。
- 参考スコア(独自算出の注目度): 46.34031902647788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although language model (LM) agents are demonstrating growing potential in many domains, their success in cybersecurity has been limited due to simplistic design and the lack of fundamental features for this domain. We present EnIGMA, an LM agent for autonomously solving Capture The Flag (CTF) challenges. EnIGMA introduces new Agent-Computer Interfaces (ACIs) to improve the success rate on CTF challenges. We establish the novel Interactive Agent Tool concept, which enables LM agents to run interactive command-line utilities essential for these challenges. Empirical analysis of EnIGMA on over 350 CTF challenges from three different benchmarks indicates that providing a robust set of new tools with demonstration of their usage helps the LM solve complex problems and achieves state-of-the-art results on the NYU CTF and Intercode-CTF benchmarks. Finally, we discuss insights on ACI design and agent behavior on cybersecurity tasks that highlight the need to adapt real-world tools for LM agents.
- Abstract(参考訳): 言語モデル(LM)エージェントは、多くのドメインで潜在的な可能性を示しているが、そのサイバーセキュリティにおける成功は、単純化された設計と、このドメインの基本的特徴の欠如によって制限されている。
本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。
EnIGMAは、CTFチャレンジの成功率を改善するために、新しいエージェント・コンピュータ・インタフェース(ACI)を導入した。
我々は,これらの課題に不可欠な対話型コマンドラインユーティリティをLMエージェントが実行できるようにする,インタラクティブエージェントツールのコンセプトを確立した。
EnIGMAの3つの異なるベンチマークからの350以上のCTF課題に関する実証分析は、LMが複雑な問題を解決し、NYU CTFとIntercode-CTFベンチマークの最先端結果を達成するのに役立つ、新しいツールの堅牢なセットを提供することを示唆している。
最後に,ACI設計とエージェントの行動に関する洞察について考察し,LMエージェントに現実のツールを適用する必要性を強調した。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security [22.86304661035188]
大規模言語モデル(LLM)は、サイバーセキュリティにおいて様々な方法で使用されている。
CTF(Capture the Flag)の課題は、LLMエージェントの自動タスク計画能力を評価するためのベンチマークとして機能する。
協調型CTF問題解決のためのD-CIPHERマルチエージェントLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-15T23:43:18Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
大規模なマルチベンチマークWebエージェント実験を初めて実施する。
結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。
我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。
我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2024-09-17T17:54:17Z) - AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing [6.334110674473677]
既存のアプローチは、セキュアで脆弱性のないコードを生成するのに苦労するコード生成に、単一のエージェントに依存することが多い。
コード生成,脆弱性解析,セキュリティ強化にLLM駆動エージェントを活用するマルチエージェントフレームワークであるAutoSafeCoderを提案する。
私たちのコントリビューションは、コード生成中に反復的なプロセスで動的および静的なテストを統合することで、マルチエージェントコード生成の安全性を確保することに焦点を当てています。
論文 参考訳(メタデータ) (2024-09-16T21:15:56Z) - Hacking, The Lazy Way: LLM Augmented Pentesting [0.0]
Pentest Copilot"というツールを使って"LLM Augmented Pentesting"をデモする
私たちの研究には、トークン使用の合理化とパフォーマンス向上のための"思考の連鎖"メカニズムが含まれています。
LLMがファイルの理解を可能にする新しいファイル解析手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T17:40:35Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。