論文の概要: Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training
- arxiv url: http://arxiv.org/abs/2502.11191v1
- Date: Sun, 16 Feb 2025 16:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:37.168798
- Title: Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training
- Title(参考訳): Primus:サイバーセキュリティLLMトレーニングのためのオープンソースのデータセットのパイオニアコレクション
- Authors: Yao-Ching Yu, Tsun-Han Chiang, Cheng-Wei Tsai, Chien-Ming Huang, Wen-Kwang Tsao,
- Abstract要約: 大規模言語モデル(LLM)は、金融、法律、医学などの専門分野において顕著な進歩を見せている。
本稿では,プレトレーニング,命令微調整,蒸留の推論など,すべての主要な訓練段階をカバーする包括的なデータセットについて紹介する。
データセットの継続事前トレーニングでは、集計スコアが15.88%向上し、蒸留の推論ではセキュリティ認証が10%向上した。
- 参考スコア(独自算出の注目度): 1.5029560229270191
- License:
- Abstract: Large Language Models (LLMs) have shown remarkable advancements in specialized fields such as finance, law, and medicine. However, in cybersecurity, we have noticed a lack of open-source datasets, with a particular lack of high-quality cybersecurity pretraining corpora, even though much research indicates that LLMs acquire their knowledge during pretraining. To address this, we present a comprehensive suite of datasets covering all major training stages, including pretraining, instruction fine-tuning, and reasoning distillation with cybersecurity-specific self-reflection data. Extensive ablation studies demonstrate their effectiveness on public cybersecurity benchmarks. In particular, continual pre-training on our dataset yields a 15.88% improvement in the aggregate score, while reasoning distillation leads to a 10% gain in security certification (CISSP). We will release all datasets and trained cybersecurity LLMs under the ODC-BY and MIT licenses to encourage further research in the community. For access to all datasets and model weights, please refer to https://huggingface.co/collections/trendmicro-ailab/primus-67b1fd27052b802b4af9d243.
- Abstract(参考訳): 大規模言語モデル(LLM)は、金融、法律、医学などの専門分野において顕著な進歩を見せている。
しかし、サイバーセキュリティでは、オープンソースデータセットの欠如、特に高品質なサイバーセキュリティ事前訓練コーパスの欠如に気づきました。
これを解決するために、サイバーセキュリティ固有の自己回帰データによる事前学習、教示微調整、蒸留の推論を含む、主要なトレーニングステージを網羅したデータセット群を提示する。
大規模なアブレーション研究は、公開サイバーセキュリティベンチマークでその効果を実証している。
特に、我々のデータセットの継続事前トレーニングでは、集計スコアが15.88%向上し、蒸留の推論はセキュリティ認証(CISSP)の10%向上につながります。
我々は、ODC-BYおよびMITライセンスの下で、すべてのデータセットとトレーニングされたサイバーセキュリティ LLM をリリースし、コミュニティにおけるさらなる研究を奨励します。
すべてのデータセットとモデルウェイトにアクセスするには、https://huggingface.co/collections/trendmicro-ailab/primus-67b1fd27052b802b4af9d243を参照してください。
関連論文リスト
- LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions [0.2999888908665658]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)機能を持ち、様々なアプリケーションにまたがる汎用機能を提供する。
しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。
本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。
論文 参考訳(メタデータ) (2024-08-17T22:37:39Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety [27.843894102000608]
我々は、大規模言語モデル(LLM)の安全性を評価し改善するためのオープンデータセットの最初の体系的なレビューを行う。
完全な合成データセットへのトレンドや、非英語および自然主義データセットの明確な欠如など、データセットカバレッジのギャップといったトレンドを強調します。
当社のコントリビューションは,LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comに基づいています。
論文 参考訳(メタデータ) (2024-04-08T10:57:25Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - A Survey of Data Security: Practices from Cybersecurity and Challenges of Machine Learning [6.086388464254366]
機械学習(ML)は、ますます重要なシステムにデプロイされている。
MLのデータ依存により、ML対応システムのトレーニングとテストに使用されるセキュアなデータが最重要となる。
データサイエンスとサイバーセキュリティのドメインは、独自のスキルと用語のセットに準拠している。
論文 参考訳(メタデータ) (2023-10-06T18:15:35Z) - Privacy Side Channels in Machine Learning Systems [87.53240071195168]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - Privately Fine-Tuning Large Language Models with Differential Privacy [10.485556506301549]
事前訓練された大規模言語モデル(LLM)は、複雑なAIタスクにおいてブレークスルーパフォーマンスをもたらす現代のAIの不可欠な部分である。
差分プライバシー(DP)は、トレーニングや微調整 LLM のプロセスにノイズを加えることができる厳格なフレームワークを提供する。
We present ewtune, a DP framework for fine-tuning LLMs based on Edgeworth accountant with finite-sample privacy guarantees。
論文 参考訳(メタデータ) (2022-10-26T21:18:31Z) - IELM: An Open Information Extraction Benchmark for Pre-Trained Language
Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。
我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。
驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文 参考訳(メタデータ) (2022-10-25T16:25:00Z) - ELLE: Efficient Lifelong Pre-training for Emerging Data [91.52652408402815]
現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。
新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。
ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
論文 参考訳(メタデータ) (2022-03-12T01:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。