Fugu-MT 論文翻訳(概要): EnIGMA: Enhanced Interactive Generative Model Agent for CTF Challenges

論文の概要: EnIGMA: Enhanced Interactive Generative Model Agent for CTF Challenges

arxiv url: http://arxiv.org/abs/2409.16165v1
Date: Tue, 24 Sep 2024 15:06:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 05:27:07.031241
Title: EnIGMA: Enhanced Interactive Generative Model Agent for CTF Challenges
Title（参考訳）: EnIGMA: CTFチャレンジのための対話型生成モデルエージェント
Authors: Talor Abramovich, Meet Udeshi, Minghao Shao, Kilian Lieret, Haoran Xi, Kimberly Milner, Sofija Jancheska, John Yang, Carlos E. Jimenez, Farshad Khorrami, Prashanth Krishnamurthy, Brendan Dolan-Gavitt, Muhammad Shafique, Karthik Narasimhan, Ramesh Karri, Ofir Press,
Abstract要約: 本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。 EnIGMAは、CTFチャレンジの成功率を改善するために、新しいエージェント・コンピュータ・インタフェース(ACI)を導入した。我々は、LMエージェントがインタラクティブなコマンドラインユーティリティを実行できるインタラクティブエージェントツールのコンセプトを確立した。
参考スコア（独自算出の注目度）: 46.34031902647788
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although language model (LM) agents are demonstrating growing potential in many domains, their success in cybersecurity has been limited due to simplistic design and the lack of fundamental features for this domain. We present EnIGMA, an LM agent for autonomously solving Capture The Flag (CTF) challenges. EnIGMA introduces new Agent-Computer Interfaces (ACIs) to improve the success rate on CTF challenges. We establish the novel Interactive Agent Tool concept, which enables LM agents to run interactive command-line utilities essential for these challenges. Empirical analysis of EnIGMA on over 350 CTF challenges from three different benchmarks indicates that providing a robust set of new tools with demonstration of their usage helps the LM solve complex problems and achieves state-of-the-art results on the NYU CTF and Intercode-CTF benchmarks. Finally, we discuss insights on ACI design and agent behavior on cybersecurity tasks that highlight the need to adapt real-world tools for LM agents.
Abstract（参考訳）: 言語モデル(LM)エージェントは、多くのドメインで潜在的な可能性を示しているが、そのサイバーセキュリティにおける成功は、単純化された設計と、このドメインの基本的特徴の欠如によって制限されている。本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。 EnIGMAは、CTFチャレンジの成功率を改善するために、新しいエージェント・コンピュータ・インタフェース(ACI)を導入した。我々は,これらの課題に不可欠な対話型コマンドラインユーティリティをLMエージェントが実行できるようにする,インタラクティブエージェントツールのコンセプトを確立した。 EnIGMAの3つの異なるベンチマークからの350以上のCTF課題に関する実証分析は、LMが複雑な問題を解決し、NYU CTFとIntercode-CTFベンチマークの最先端結果を達成するのに役立つ、新しいツールの堅牢なセットを提供することを示唆している。最後に,ACI設計とエージェントの行動に関する洞察について考察し,LMエージェントに現実のツールを適用する必要性を強調した。

関連論文リスト

Capture the Flags: Family-Based Evaluation of Agentic LLMs via Semantics-Preserving Transformations [9.234598988803407]
エージェント型大規模言語モデル(LLM)は、キャプチャー・ザ・フラッグベンチマークを使用してサイバーセキュリティタスクでますます評価されている。我々はCTFチャレンジファミリーを導入し、単一のCTFを意味論的に等価な課題のファミリーを生成する基盤として利用する。我々は,Pythonの課題からCTFファミリーを生成する新しいツールであるEvolve-CTFを紹介した。
論文参考訳（メタデータ） (2026-02-05T10:30:57Z)
Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文参考訳（メタデータ） (2025-12-18T08:38:44Z)
DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。 LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文参考訳（メタデータ） (2025-10-24T16:24:01Z)
InfoAgent: Advancing Autonomous Information-Seeking Agents [143.15973604285304]
本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
論文参考訳（メタデータ） (2025-09-29T17:59:57Z)
AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。 AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。 AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文参考訳（メタデータ） (2025-08-02T01:43:39Z)
Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文参考訳（メタデータ） (2025-06-22T16:52:48Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。 SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文参考訳（メタデータ） (2025-02-17T04:50:37Z)
D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security [22.86304661035188]
大規模言語モデル(LLM)は、サイバーセキュリティにおいて様々な方法で使用されている。 CTF(Capture the Flag)の課題は、LLMエージェントの自動タスク計画能力を評価するためのベンチマークとして機能する。協調型CTF問題解決のためのD-CIPHERマルチエージェントLLMフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-15T23:43:18Z)
GUI Agents with Foundation Models: A Comprehensive Survey [52.991688542729385]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文参考訳（メタデータ） (2024-11-07T17:28:10Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。 SPA-Benchは3つの重要なコントリビューションを提供している。英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文参考訳（メタデータ） (2024-09-17T17:54:17Z)
AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing [6.334110674473677]
既存のアプローチは、セキュアで脆弱性のないコードを生成するのに苦労するコード生成に、単一のエージェントに依存することが多い。コード生成,脆弱性解析,セキュリティ強化にLLM駆動エージェントを活用するマルチエージェントフレームワークであるAutoSafeCoderを提案する。私たちのコントリビューションは、コード生成中に反復的なプロセスで動的および静的なテストを統合することで、マルチエージェントコード生成の安全性を確保することに焦点を当てています。
論文参考訳（メタデータ） (2024-09-16T21:15:56Z)
Hacking, The Lazy Way: LLM Augmented Pentesting [0.0]
Pentest Copilot"というツールを使って"LLM Augmented Pentesting"をデモする私たちの研究には、トークン使用の合理化とパフォーマンス向上のための"思考の連鎖"メカニズムが含まれています。 LLMがファイルの理解を可能にする新しいファイル解析手法を提案する。
論文参考訳（メタデータ） (2024-09-14T17:40:35Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。 Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
Understanding the Weakness of Large Language Model Agents within a Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。 LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文参考訳（メタデータ） (2024-02-09T18:19:25Z)
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。 LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文参考訳（メタデータ） (2023-10-06T17:55:11Z)
Enhancing Trust in LLM-Based AI Automation Agents: New Considerations and Future Challenges [2.6212127510234797]
プロセス自動化の分野では、AIベースのエージェントの新世代が登場し、複雑なタスクの実行が可能になった。本稿では、既存の文献で議論されているAIエージェントの信頼性の主な側面を分析し、この新世代の自動化エージェントに関連する具体的な考察と課題を特定する。
論文参考訳（メタデータ） (2023-08-10T07:12:11Z)
Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文参考訳（メタデータ） (2020-08-01T18:22:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。