論文の概要: Measuring and Augmenting Large Language Models for Solving Capture-the-Flag Challenges
- arxiv url: http://arxiv.org/abs/2506.17644v1
- Date: Sat, 21 Jun 2025 08:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.525376
- Title: Measuring and Augmenting Large Language Models for Solving Capture-the-Flag Challenges
- Title(参考訳): キャプチャー・ザ・フラッグ問題の解決のための大規模言語モデルの測定と拡張
- Authors: Zimo Ji, Daoyuan Wu, Wenyuan Jiang, Pingchuan Ma, Zongjie Li, Shuai Wang,
- Abstract要約: CTFコンペティションはサイバーセキュリティ教育とトレーニングに不可欠である。
大規模言語モデル(LLM)が進化するにつれて、CTFの課題解決を自動化する能力への関心が高まっている。
我々はCTFAgentを提案する。CTFAgentはCTF問題解決のための新しいフレームワークである。
- 参考スコア(独自算出の注目度): 10.476975554297095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capture-the-Flag (CTF) competitions are crucial for cybersecurity education and training. As large language models (LLMs) evolve, there is increasing interest in their ability to automate CTF challenge solving. For example, DARPA has organized the AIxCC competition since 2023 to advance AI-powered automated offense and defense. However, this demands a combination of multiple abilities, from knowledge to reasoning and further to actions. In this paper, we highlight the importance of technical knowledge in solving CTF problems and deliberately construct a focused benchmark, CTFKnow, with 3,992 questions to measure LLMs' performance in this core aspect. Our study offers a focused and innovative measurement of LLMs' capability in understanding CTF knowledge and applying it to solve CTF challenges. Our key findings reveal that while LLMs possess substantial technical knowledge, they falter in accurately applying this knowledge to specific scenarios and adapting their strategies based on feedback from the CTF environment. Based on insights derived from this measurement study, we propose CTFAgent, a novel LLM-driven framework for advancing CTF problem-solving. CTFAgent introduces two new modules: two-stage Retrieval Augmented Generation (RAG) and interactive Environmental Augmentation, which enhance LLMs' technical knowledge and vulnerability exploitation on CTF, respectively. Our experimental results show that, on two popular CTF datasets, CTFAgent both achieves over 80% performance improvement. Moreover, in the recent picoCTF2024 hosted by CMU, CTFAgent ranked in the top 23.6% of nearly 7,000 participating teams. This reflects the benefit of our measurement study and the potential of our framework in advancing LLMs' capabilities in CTF problem-solving.
- Abstract(参考訳): CTF(Capture-the-Flag)コンペティションは、サイバーセキュリティ教育とトレーニングに不可欠である。
大規模言語モデル(LLM)が進化するにつれて、CTFの課題解決を自動化する能力への関心が高まっている。
例えばDARPAは、AIによる自動犯罪と防衛を推進すべく、2023年からAIxCCコンペティションを組織している。
しかし、これは知識から推論まで、さらに行動まで、複数の能力の組み合わせを必要とする。
本稿では,CTF問題の解決における技術的知識の重要性を強調し,この中核的な側面においてLCMの性能を測定するために,3,992の質問を集中型ベンチマークであるCTFKnowを意図的に構築する。
本研究は,CTFの知識を理解し,それをCTFの課題に応用する上で,LLMの能力の集中的かつ革新的な測定方法である。
我々のキーとなる発見は、LLMがかなりの技術的知識を持っている一方で、特定のシナリオにこの知識を正確に適用し、CTF環境からのフィードバックに基づいて戦略を適応させることに苦慮していることを示している。
本研究から得られた知見に基づいて,CTFAgentを提案する。
CTFAgentは2段階のRetrieval Augmented Generation(RAG)と対話型環境拡張という2つの新しいモジュールを導入している。
実験の結果、CTFAgentは2つの一般的なCTFデータセットにおいて、80%以上の性能改善を実現していることがわかった。
さらに、最近のCMU主催のPicoCTF2024では、CTFAgentは7000近い参加チームの上位23.6%にランクインした。
このことは,CTF問題解決におけるLLMの能力向上における,我々の測定研究のメリットと,我々のフレームワークの可能性を反映している。
関連論文リスト
- CRAKEN: Cybersecurity LLM Agent with Knowledge-Based Execution [22.86304661035188]
大規模言語モデル(LLM)エージェントは、サイバーセキュリティタスクを自動化することができ、再設計することなく、進化するサイバーセキュリティの状況に適応することができる。
トレーニングデータ以外の最新のサイバーセキュリティの専門知識にアクセスし、複雑なタスク計画に新たな知識を統合することだ。
本稿では,3つのコア機構を通じて,サイバーセキュリティ能力を向上させる知識ベースLLMエージェントフレームワークであるCRAKENを提案する。
論文 参考訳(メタデータ) (2025-05-21T11:01:11Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - D-CIPHER: Dynamic Collaborative Intelligent Multi-Agent System with Planner and Heterogeneous Executors for Offensive Security [22.86304661035188]
D-CIPHERは、協調サイバーセキュリティCTF問題解決のためのマルチエージェントフレームワークである。
エージェントと異なる役割を持つエージェントを動的フィードバックループに統合し、複雑なタスクの推論を強化する。
NYU CTF Benchでは22.0%、Cybenchでは22.5%、HackTheBoxでは44.0%である。
論文 参考訳(メタデータ) (2025-02-15T23:43:18Z) - EnIGMA: Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities [46.34031902647788]
本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。
セキュリティ脆弱性を発見して悪用するエージェントの能力を改善するために、新しいツールとインターフェースを導入します。
390 CTF課題に関する実証分析により,これらの新しいツールとインターフェースがエージェントの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-09-24T15:06:01Z) - An Empirical Evaluation of LLMs for Solving Offensive Security Challenges [27.058760434139455]
大きな言語モデル(LLM)は、Capture The Flag(CTF)の課題を解決するために使用されている。
CTFを解いた2つのHuman-in-the-loop(HITL)と完全自動化ワークフローを開発し、選択したCTF課題を解くLLMの能力を検証した。
LLMは平均的なヒトよりも高い成功率を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-19T04:08:44Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Using Large Language Models for Cybersecurity Capture-The-Flag
Challenges and Certification Questions [5.772077916138848]
サイバーセキュリティキャプチャー・ザ・フラッグ(CTF: Cybersecurity Capture-The-Flag)のエクササイズの評価には、システムの脆弱性を利用して、参加者が文字列やフラグを見つけることが含まれる。
LLM(Large Language Models)は、テキストの理解と生成のために大量の単語で訓練された自然言語モデルである。
本研究は,LCMの有効性,特にCTFの課題と課題の領域における有効性について検討する。
論文 参考訳(メタデータ) (2023-08-21T03:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。