論文の概要: Towards Cybersecurity SuperIntelligence (CSI): What's the best harness for cybersecurity?
- arxiv url: http://arxiv.org/abs/2605.28334v2
- Date: Sun, 31 May 2026 19:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 14:56:41.440554
- Title: Towards Cybersecurity SuperIntelligence (CSI): What's the best harness for cybersecurity?
- Title(参考訳): サイバーセキュリティスーパーインテリジェンス(CSI: Cybersecurity Super Intelligence): サイバーセキュリティに最適なハーネスは何でしょう?
- Authors: Víctor Mayoral-Vilches, Francesco Balassone, María Sanz-Gómez, Paul Zabalegui Landa, Daniel Sánchez Prieto, Marina Oteiza Álvarez, Davide Quarta, Martin Pinzger,
- Abstract要約: サイバーセキュリティシステムは、エージェントごとにひとつの実行足場に集約されている。
全てのチャレンジタイプで1つの足場が支配的ではない。
異種エージェントハーネスを統一するメタスカラーフォールドを提案する。
- 参考スコア(独自算出の注目度): 1.8036227150038107
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: What is the best harness for cybersecurity AI? Cybersecurity systems are converging on a single execution scaffold per agent, an iterative shell loop driven by a Large Language Model (LLM). However, scaffolds are not interchangeable, rarely interoperable, and no single scaffold dominates across all challenge types. In our path towards researching Cybersecurity SuperIntelligence (CSI), we present a meta-scaffold that unifies heterogeneous agent harnesses under a common orchestration layer, enabling any LLM-driven scaffold to be deployed, benchmarked, and composed within the same infrastructure. Using CSI, we benchmark five scaffolds (CSI::Claude, CSI::Codex, CSI::GCAI, CSI::Mistral, CSI::CAI) on the 33 cybench challenges, holding the model fixed at alias2-mini. The best individual scaffolds solve 15/33 (45.5%); the four-scaffold union solves 17/33 (51.5%), with the fifth (CSI::Mistral, 10/33) contributing one exclusive solve. We find that no single scaffold is the best harness: it is the combination of structurally heterogeneous scaffolds that yields the highest coverage. We validate this through CSI's blackboard-based multi-agent architecture, in which scaffold-specialised agents run in parallel and exchange intermediate findings via a shared substrate (a blackboard). The blackboard solves 19/33 (57.6%), a 27% relative gain over CSI::Claude, one of the best individual scaffolds (15/33, 45.5%), 25% faster (20.2 h vs. 26.8 h), at comparable cost ($5,480 vs. $5,122).
- Abstract(参考訳): サイバーセキュリティAIに最適なハーネスは何か?
サイバーセキュリティシステムは,大規模言語モデル(LLM)によって駆動される反復的なシェルループである,エージェント毎にひとつの実行足場に集約されている。
しかし、足場は交換可能ではなく、インターオペラビリティがほとんどなく、全てのチャレンジタイプで単一の足場が支配的ではない。
サイバーセキュリティ・スーパーインテリジェンス(CSI)研究への道筋として、異種エージェントを共通のオーケストレーション層の下に統一し、LLM駆動の足場をデプロイし、ベンチマークし、同一インフラストラクチャ内で構成するメタスキャフォールドを提案する。
CSIを用いて、33のサイベンチ課題に対して、5つの足場(CSI::Claude, CSI::Codex, CSI::GCAI, CSI::Mistral, CSI::CAI)をベンチマークし、エイリアス2ミニでモデルを固定する。
最高の個々の足場は15/33(45.5%)、四つ組は17/33(51.5%)、五つ組(CSI::Mistral, 10/33)は1つの排他的解決に寄与する。
構造的に不均一な足場が組み合わさって、最も高いカバレッジを得るのです。
CSIのブラックボードをベースとしたマルチエージェントアーキテクチャにより,足場特定エージェントが並列に動作し,共通基板(ブラックボード)を介して中間結果の交換を行う。
ブラックボードは19/33(57.6%)を解き、CSIを27%上回った:Claude、最高の個々の足場の一つ(15/33, 45.5%)、25%速く(20.2 h対26.8 h)、同等のコストで5,480対5,122ドルである。
関連論文リスト
- GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives [48.545980031973556]
GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
論文 参考訳(メタデータ) (2026-05-09T16:07:23Z) - Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory [76.63021613850093]
我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。
システムは2つのベンチマークで最先端を実現し、LoCoMoではF1を+411%改善し、Mem-Galleryでは+214%向上した。
本稿では,6種類の発見型を分類し,特に自動検索に適したマルチモーダルメモリを実現する4つの特性を同定する。
論文 参考訳(メタデータ) (2026-04-01T15:06:23Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - CAI: An Open, Bug Bounty-Ready Cybersecurity AI [0.3889280708089931]
Cybersecurity AI(CAI)は、特殊なAIエージェントを通じて高度なセキュリティテストを民主化する、オープンソースのフレームワークである。
CAI は CTF ベンチマークで常に最先端の結果を上回っていることを示す。
CAIはスペインで30位、Hack The Boxで500位に達した。
論文 参考訳(メタデータ) (2025-04-08T13:22:09Z) - AgentBreeder: Mitigating the AI Safety Risks of Multi-Agent Scaffolds via Self-Improvement [5.5068092331643035]
大規模言語モデル(LLM)をマルチエージェントシステムに置き換えることによって、複雑なタスクのパフォーマンスが向上することが多い。
我々は,足場上での多目的自己改善進化探索のためのフレームワークであるAgentBreederを紹介する。
論文 参考訳(メタデータ) (2025-02-02T11:40:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。