論文の概要: CTFusion: A CTF-based Benchmark for LLM Agent Evaluation
- arxiv url: http://arxiv.org/abs/2605.11504v1
- Date: Tue, 12 May 2026 04:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.573313
- Title: CTFusion: A CTF-based Benchmark for LLM Agent Evaluation
- Title(参考訳): CTFusion: LLMエージェント評価のためのCTFベースのベンチマーク
- Authors: Dongjun Lee, Ga-eun Bae, Insu Yun,
- Abstract要約: 我々は,Live CTF上に構築されたストリーミング評価フレームワークであるCTFusionを提案する。
既存の CTF ベンチマークは LLM ベースのエージェントの評価では信頼性が低いことを実証する。
我々は,CTFusionをオープンソースとしてリリースし,今後の研究を促進する。
- 参考スコア(独自算出の注目度): 15.091299960425857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have enabled agentic systems for complex, multi-step tasks; cybersecurity is emerging as a prominent application. To evaluate such agents, researchers widely adopt Capture The Flag (CTF) benchmarks. However, current CTF benchmarks reuse existing challenges, which exposes them to data contamination and potential cheating. Notably, we confirmed these issues in practice by integrating web search tools into an existing agent. To address these limitations, we present CTFusion, a streaming evaluation framework built on Live CTFs. To achieve this, CTFusion preserves per-agent independence under a single team account and reduces competition impact by forwarding only the first correct flag per challenge. Moreover, we implement CTFusion as a Model Context Protocol (MCP) server on the widely used CTFd platform, which offers broad applicability to diverse CTF events and agent types. Through experiments with three LLMs, two agents, and five Live CTFs, we demonstrate that existing CTF benchmarks can be unreliable in assessing LLM-based agents, while CTFusion can serve as a robust solution for evaluating cybersecurity agents. We release CTFusion as open source to foster future research in this area.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑で多段階的なタスクのためのエージェントシステムを可能にしている。
このようなエージェントを評価するために、研究者はCapture The Flag (CTF)ベンチマークを広く採用している。
しかし、現在のCTFベンチマークでは、既存の課題を再利用しているため、データ汚染や潜在的不正に晒されている。
特に,Web検索ツールを既存のエージェントに統合することで,これらの問題を実際に確認した。
これらの制約に対処するために,Live CTF上に構築されたストリーミング評価フレームワークであるCTFusionを提案する。
これを実現するため、CTFusionは単一のチームアカウントの下でエージェントごとの独立性を保ち、チャレンジ毎の最初の正しいフラグのみをフォワードすることで競合の影響を低減する。
さらに、広く使われているCTFdプラットフォーム上で、モデルコンテキストプロトコル(MCP)サーバとしてCTFusionを実装し、多様なCTFイベントやエージェントタイプに幅広い適用性を提供する。
3つのLCM、2つのエージェント、5つのLive CTFによる実験を通して、既存のCTFベンチマークがLCMベースのエージェントを評価する上で信頼性が低いことを示し、一方CTFusionはサイバーセキュリティエージェントを評価するための堅牢なソリューションとして機能する。
我々は,CTFusionをオープンソースとしてリリースし,今後の研究を促進する。
関連論文リスト
- FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments [60.3427704389541]
大規模言語モデルは、自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、会話のベンチマークでは、誤った意思決定のカスケード効果のために、これらのエージェントは頻繁に失敗する。
これらの課題に対処するために、Failure-Aware Meta-Agenticフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T02:21:53Z) - STRIATUM-CTF: A Protocol-Driven Agentic Framework for General-Purpose CTF Solving [1.266832699428407]
モデルコンテキストプロトコル(MCP)上に構築されたモジュール型エージェントフレームワークであるSTRIATUM-CTF(サーチベーステストタイム推論推論エージェント、サイバーセキュリティにおける戦術的ユーティリティ最大化)を紹介する。
システムのイントロスペクション、デコンパイル、実行時のデバッグのためのツールインターフェースを標準化することで、STRIATUM-CTFはエージェントが拡張されたエクスプロイトトラジェクトリ間でコヒーレントなコンテキストウィンドウを維持することができる。
当社のシステムは2025年後半に開催された大学主催のCapture-the-Flag(CTF)コンペに参加し、リアルタイムで脆弱性を特定して悪用するために自律的に運用しました。
論文 参考訳(メタデータ) (2026-03-23T21:17:26Z) - Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark [18.653746750609546]
エージェントの成功を促す重要な要因を体系的に検討し、LLMをベースとした効果的な攻撃セキュリティエージェントを構築するための詳細なレシピを提供する。
CTFJudgeは、LCMを審査員として活用し、エージェントトラジェクトリを分析し、CTF解決ステップ全体にわたってきめ細かい評価を行うフレームワークである。
高速な評価のために、バイナリエクスプロイト、Web、リバースエンジニアリング、法医学、暗号の50の代表的なCTF課題をキュレートしたベンチマークであるCTFTinyを提案する。
論文 参考訳(メタデータ) (2025-08-05T03:25:09Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - D-CIPHER: Dynamic Collaborative Intelligent Multi-Agent System with Planner and Heterogeneous Executors for Offensive Security [22.86304661035188]
D-CIPHERは、協調サイバーセキュリティCTF問題解決のためのマルチエージェントフレームワークである。
エージェントと異なる役割を持つエージェントを動的フィードバックループに統合し、複雑なタスクの推論を強化する。
NYU CTF Benchでは22.0%、Cybenchでは22.5%、HackTheBoxでは44.0%である。
論文 参考訳(メタデータ) (2025-02-15T23:43:18Z) - EnIGMA: Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities [46.34031902647788]
本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。
セキュリティ脆弱性を発見して悪用するエージェントの能力を改善するために、新しいツールとインターフェースを導入します。
390 CTF課題に関する実証分析により,これらの新しいツールとインターフェースがエージェントの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-09-24T15:06:01Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。