論文の概要: Cybersecurity AI (CAI) Dataset
- arxiv url: http://arxiv.org/abs/2605.28146v1
- Date: Wed, 27 May 2026 08:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.893101
- Title: Cybersecurity AI (CAI) Dataset
- Title(参考訳): サイバーセキュリティAI(CAI)データセット
- Authors: Víctor Mayoral-Vilches,
- Abstract要約: CAIデータセットは、オープンソースのCAIエージェントフレームワークを通じて収集されたサイバーセキュリティLLMトラジェクトリのコーパスである。
123か国16,768のソースIPから230,935のセッションログと26,027,742のユーザプロンプトを集約する。
パートナー組織や選抜された顧客向けに、オーディエンスサイズのシリーズとしてリリースされている。
- 参考スコア(独自算出の注目度): 0.5958112901546286
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present CAI Dataset, a fourteen-month corpus of cybersecurity LLM trajectories collected through the open-source CAI agent framework, built in response to PentestGPT's finding that expert operator trajectories, not base-model capability, are the bottleneck for cybersecurity LLM performance. CAI Dataset aggregates 230,935 session logs and 26,027,742 user prompts from 16,768 source IPs across 123 countries, exercising 4,187 unique LLM identifiers against 23,147 target domains over 18.07 TB of durable storage. The mix is hands-on (36.4% offensive, 20.1% attacker-intent, 27.5% business / integration, 4.4% defensive), making CAI Dataset, to the best of our knowledge, the largest described corpus of LLM-driven hacker trajectories. It is released to partner organisations and selected customers as an audience-size series (CAI Dataset10, CAI Dataset1k, CAI Dataset200k). Read longitudinally, the corpus is a record of cybersecurity itself turning automated: operators routinely paste live credentials, production hostnames and bearer tokens into prompts knowing their inputs are logged, a trade-off they accept to stay competitive. Aggregated across the industry, this concentrates a substantial fraction of the world's offensive and defensive operator context inside a handful of frontier-model API providers, a single failure surface whose breach or politically motivated repurposing could cascade into nation- and enterprise-scale disruption. The only configuration that preserves both the productivity advantage and operator-side confidentiality is an on-premise, privately-hosted cybersecurity-specialised LLM served inside the operator's trust boundary, which CAI Dataset is shaped to make practical.
- Abstract(参考訳): 我々は、オープンソースのCAIエージェントフレームワークを通じて収集された14ヶ月のサイバーセキュリティLLMトラジェクトリのコーパスであるCAI Datasetを紹介し、PentestGPTが、ベースモデル機能ではなく専門家オペレータのトラジェクトリがサイバーセキュリティLLMパフォーマンスのボトルネックであることを発見して構築した。
CAI Datasetは、123カ国の16,768のソースIPから230,935のセッションログと26,027,742のユーザプロンプトを集約し、18.07TBの耐久性ストレージで23,147のターゲットドメインに対して4,187のユニークなLSM識別子を実行する。
攻撃的(36.4%、攻撃的(20.1%)、ビジネス/統合(27.5%)、防衛的(4.4%))であり、私たちの知る限り、LLMによるハッカー軌道の最大のコーパスであるCAIデータセットである。
パートナー組織や、オーディエンスサイズのシリーズ(CAI Dataset10、CAI Dataset1k、CAI Dataset200k)として選択された顧客向けにリリースされている。
オペレーターは定期的に、ライブの認証情報、プロダクションのホスト名、そしてベアラートークンを、彼らの入力がログされていることを知るプロンプトにペーストする。
これは、一部のフロンティアモデルAPIプロバイダの中で、世界の攻撃的かつ防衛的な運用者のコンテキストのかなりの部分に集中している。
生産性の優位性とオペレータ側の機密性を両立させる唯一の構成は、運用者の信頼境界内に配置された、オンプレミスでプライベートにホストされたサイバーセキュリティ専門のLLMであり、CAI Datasetは実用的なものになっている。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - RedSage: A Cybersecurity Generalist LLM [45.91667919408369]
RedSageは、ドメイン認識事前トレーニングとポストトレーニングを備えた、オープンソースでローカルにデプロイ可能なサイバーセキュリティアシスタントである。
フレームワーク、攻撃的テクニック、セキュリティツールにまたがる28.6Kのドキュメントにまたがって、大規模なWebフィルタリングと高品質なリソースのマニュアルコレクションを使用します。
RedSageは、確立されたサイバーセキュリティベンチマーク(例えば、CTI-Bench、CyberMetric、SECURE)と一般的なLCMベンチマークで評価され、より広範な一般化を評価する。
論文 参考訳(メタデータ) (2026-01-29T18:59:57Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。
我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。
当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文 参考訳(メタデータ) (2025-04-28T08:41:12Z) - The Digital Cybersecurity Expert: How Far Have We Come? [49.89857422097055]
我々は,サイバーセキュリティの専門家が期待する345の知識ポイントに基づいた,きめ細かいサイバーセキュリティ評価フレームワークであるCSEBenchmarkを開発した。
CSEBenchmarkで12のポピュラーな大言語モデル(LLM)を評価し、最高のパフォーマンスモデルでさえ全体の精度は85.42%に過ぎなかった。
各LSMにおける特定の知識ギャップを特定し,対処することにより,事前の誤り予測の修正において最大84%の改善が達成される。
論文 参考訳(メタデータ) (2025-04-16T05:36:28Z) - CAI: An Open, Bug Bounty-Ready Cybersecurity AI [0.3889280708089931]
Cybersecurity AI(CAI)は、特殊なAIエージェントを通じて高度なセキュリティテストを民主化する、オープンソースのフレームワークである。
CAI は CTF ベンチマークで常に最先端の結果を上回っていることを示す。
CAIはスペインで30位、Hack The Boxで500位に達した。
論文 参考訳(メタデータ) (2025-04-08T13:22:09Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training [1.4027589547318844]
大規模言語モデル(LLM)は、金融、法律、医学などの専門分野において顕著な進歩を見せている。
本稿では,プレトレーニング,命令微調整,蒸留の推論など,すべての主要な訓練段階をカバーする包括的なデータセットについて紹介する。
データセットの継続事前トレーニングでは、集計スコアが15.9%向上し、蒸留の推論は15.8%向上した。
論文 参考訳(メタデータ) (2025-02-16T16:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。