論文の概要: KryptoPilot: An Open-World Knowledge-Augmented LLM Agent for Automated Cryptographic Exploitation
- arxiv url: http://arxiv.org/abs/2601.09129v1
- Date: Wed, 14 Jan 2026 04:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.254813
- Title: KryptoPilot: An Open-World Knowledge-Augmented LLM Agent for Automated Cryptographic Exploitation
- Title(参考訳): KryptoPilot: 自動暗号爆発のためのオープンワールド知識強化LDMエージェント
- Authors: Xiaonan Liu, Zhihao Li, Xiao Lan, Hao Ren, Haizhou Wang, Xingshu Chen,
- Abstract要約: KryptoPilot(クリプトパイロット)は、オープンソースの知識強化型LLMエージェントである。
我々は、KryptoPilotがInterCode-CTFの完全な解決率を達成し、NYU-CTFベンチマークにおける暗号化課題の56~60%を解決し、ライブコンペティションにおける33の暗号課題のうち26の解決に成功したことを示す。
- 参考スコア(独自算出の注目度): 16.43451504898208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capture-the-Flag (CTF) competitions play a central role in modern cybersecurity as a platform for training practitioners and evaluating offensive and defensive techniques derived from real-world vulnerabilities. Despite recent advances in large language models (LLMs), existing LLM-based agents remain ineffective on high-difficulty cryptographic CTF challenges, which require precise cryptanalytic knowledge, stable long-horizon reasoning, and disciplined interaction with specialized toolchains. Through a systematic exploratory study, we show that insufficient knowledge granularity, rather than model reasoning capacity, is a primary factor limiting successful cryptographic exploitation: coarse or abstracted external knowledge often fails to support correct attack modeling and implementation. Motivated by this observation, we propose KryptoPilot, an open-world knowledge-augmented LLM agent for automated cryptographic exploitation. KryptoPilot integrates dynamic open-world knowledge acquisition via a Deep Research pipeline, a persistent workspace for structured knowledge reuse, and a governance subsystem that stabilizes reasoning through behavioral constraints and cost-aware model routing. This design enables precise knowledge alignment while maintaining efficient reasoning across heterogeneous subtasks. We evaluate KryptoPilot on two established CTF benchmarks and in six real-world CTF competitions. KryptoPilot achieves a complete solve rate on InterCode-CTF, solves between 56 and 60 percent of cryptographic challenges on the NYU-CTF benchmark, and successfully solves 26 out of 33 cryptographic challenges in live competitions, including multiple earliest-solved and uniquely-solved instances. These results demonstrate the necessity of open-world, fine-grained knowledge augmentation and governed reasoning for scaling LLM-based agents to real-world cryptographic exploitation.
- Abstract(参考訳): CTF(Capture-the-Flag)コンペティションは、実践者を訓練し、現実世界の脆弱性から派生した攻撃的および防御的手法を評価するためのプラットフォームとして、現代のサイバーセキュリティにおいて中心的な役割を果たす。
大規模言語モデル(LLM)の最近の進歩にもかかわらず、既存のLCMベースのエージェントは、正確な暗号解析知識、安定した長距離推論、特殊なツールチェーンとの規律的な相互作用を必要とする、高度な暗号CTF課題に対して効果が残っていない。
体系的な探索研究を通じて、モデル推論能力ではなく、知識の粒度不足が暗号利用の成功を制限する主要な要因であることが示され、粗いまたは抽象的な外部知識は、正しい攻撃モデリングと実装をサポートするのに失敗することが多い。
本研究の目的は,オープンソースの知識付加型LLMエージェントであるKryptoPilotを,自動暗号利用のために提案することである。
KryptoPilotは、Deep Researchパイプライン、構造化知識再利用のための永続的なワークスペース、行動制約やコスト認識モデルルーティングを通じて推論を安定化するガバナンスサブシステムを通じて、動的なオープンワールド知識の取得を統合する。
この設計は、異種サブタスク間の効率的な推論を維持しつつ、正確な知識アライメントを可能にする。
我々はKryptoPilotを2つの確立されたCTFベンチマークと6つの実世界のCTFコンペティションで評価した。
KryptoPilotは、InterCode-CTFの完全な解決レートを達成し、NYU-CTFベンチマークの暗号化課題の56~60%を解決し、複数の最初期の、一意に解決されたインスタンスを含む、ライブコンペティションにおける33の暗号課題のうち26の解決に成功した。
これらの結果は、LLMベースのエージェントを現実世界の暗号利用に拡張するための、オープンワールド、きめ細かい知識強化、および支配的推論の必要性を示している。
関連論文リスト
- CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency [60.83660377169452]
本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
論文 参考訳(メタデータ) (2025-11-29T09:52:34Z) - CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence [48.63397742510097]
サイバー脅威インテリジェンス(CTI)は現代のサイバーセキュリティの中心であり、進化する脅威を検出し緩和するための重要な洞察を提供する。
大規模言語モデル(LLM)の自然言語理解と推論能力により、CTIに適用することへの関心が高まっている。
異種マルチソースCTI上でLLM性能を評価するための最初のベンチマークであるCTIArenaを提案する。
論文 参考訳(メタデータ) (2025-10-13T22:10:17Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models [31.974963309762913]
AICryptoは、大規模言語モデルの暗号能力を評価するために設計された最初の包括的なベンチマークである。
ベンチマークは135の多重選択質問、150のキャプチャー・ザ・フラッグ課題、18の証明問題で構成されている。
LLMをリードする17のモデルの評価は、最先端のモデルが暗号概念を記憶する上で、人間の専門家と一致しているか、さらに上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-13T11:11:01Z) - WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - CRAKEN: Cybersecurity LLM Agent with Knowledge-Based Execution [22.86304661035188]
大規模言語モデル(LLM)エージェントは、サイバーセキュリティタスクを自動化することができ、再設計することなく、進化するサイバーセキュリティの状況に適応することができる。
トレーニングデータ以外の最新のサイバーセキュリティの専門知識にアクセスし、複雑なタスク計画に新たな知識を統合することだ。
本稿では,3つのコア機構を通じて,サイバーセキュリティ能力を向上させる知識ベースLLMエージェントフレームワークであるCRAKENを提案する。
論文 参考訳(メタデータ) (2025-05-21T11:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。