論文の概要: Less Data, More Security: Advancing Cybersecurity LLMs Specialization via Resource-Efficient Domain-Adaptive Continuous Pre-training with Minimal Tokens
- arxiv url: http://arxiv.org/abs/2507.02964v1
- Date: Mon, 30 Jun 2025 12:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.478534
- Title: Less Data, More Security: Advancing Cybersecurity LLMs Specialization via Resource-Efficient Domain-Adaptive Continuous Pre-training with Minimal Tokens
- Title(参考訳): リソース効率のよいドメイン適応型継続的事前トレーニングによるサイバーセキュリティ LLMs の特殊化
- Authors: Salahuddin Salahuddin, Ahmed Hussain, Jussi Löppönen, Toni Jutila, Panos Papadimitratos,
- Abstract要約: ドメイン適応型継続的事前訓練(Domain-Adaptive Continuous Pretraining, DAP)は、大規模言語モデル(LLM)におけるサイバーセキュリティ理解を強化する手法である。
我々は,1億6百万ワードのサイバーセキュリティコーパスを標準,学術文献,その他さまざまな情報源から活用して,デコーダベースの3つのアーキテクチャを適用した。
Llama-3.3-70B-Ins-DAPモデルは、それぞれ0.718、0.933、0.864の最先端のアキュラティを達成した。
- 参考スコア(独自算出の注目度): 1.2116854758481395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Large Language Models (LLMs) demonstrate exceptional natural language capabilities, general-purpose models lack specialized domain knowledge for effective cybersecurity analysis. In this work, we investigate Domain-Adaptive Continuous Pretraining (DAP) as a methodology for enhancing cybersecurity understanding in pretrained LLMs while preserving general language capabilities. We systematically adapted three decoder-based architectures -- Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-14B, and Llama-3.3-70B-Instruct -- using a curated 126-million-word cybersecurity corpus from standards, academic literature, and various other sources. Our approach employed constrained training parameters and distributed FSDP training to balance domain specialization with knowledge preservation. Evaluation across three cybersecurity benchmarks, namely, CTI-MCQ, CyberMetric, and SecEval, demonstrates consistent improvements post-adaptation. The Llama-3.3-70B-Ins-DAP model achieved state-of-the-art accuracies of 0.718, 0.933, and 0.864, respectively, outperforming specialized models, including Llama-Primus-Base. Notably, competitive performance was achieved using substantially smaller datasets (118.8 million versus 2.77 billion tokens), demonstrating efficient domain specialization viability. We establish that targeted continuous pretraining enables effective cybersecurity domain adaptation with computational feasibility, providing foundations for specialized AI assistants in threat analysis, vulnerability assessment, and security documentation while challenging prevailing assumptions about data requirements for LLM specialization.
- Abstract(参考訳): 大規模言語モデル(LLM)は例外的な自然言語能力を示すが、汎用モデルは効果的なサイバーセキュリティ分析のための専門的なドメイン知識を欠いている。
本研究では,ドメイン適応型継続的事前トレーニング(DAP)を,汎用言語能力を維持しつつ,事前学習されたLLMにおけるサイバーセキュリティの理解を高める手法として検討する。
Llama-3.1-8B、DeepSeek-R1-Distill-Qwen-14B、Llama-3.3-70B-Instructという3つのデコーダベースのアーキテクチャを、標準、学術文献、その他様々な情報源から126万ワードのサイバーセキュリティコーパスを使用して体系的に適用した。
本手法では,制約付きトレーニングパラメータと分散FSDPトレーニングを用いて,ドメインの専門化と知識保存のバランスをとる。
CTI-MCQ、CyberMetric、SecEvalの3つのサイバーセキュリティベンチマークによる評価は、適応後の一貫した改善を示している。
Llama-3.3-70B-Ins-DAPモデルは、それぞれ0.718、0.933、0.864の最先端のアキュラティを達成し、Llama-Primus-Baseなどの特殊モデルより優れていた。
特に、競争性能は、かなり小さなデータセット(118.8百万トークン対277億トークン)を使用して達成され、効率的なドメインの特殊化の可能性を実証した。
脅威分析,脆弱性評価,セキュリティ文書などの専門的AIアシスタントの基盤を提供すると同時に,LSM専門化のためのデータ要件に関する一般的な仮定に挑戦する。
関連論文リスト
- Secure Distributed Learning for CAVs: Defending Against Gradient Leakage with Leveled Homomorphic Encryption [0.0]
ホモモルフィック暗号化(HE)は、差分プライバシー(DP)とセキュアマルチパーティ計算(SMPC)に代わる有望な代替手段を提供する
資源制約のある環境において,フェデレートラーニング(FL)に最も適したHE方式の評価を行った。
我々は、モデル精度を維持しながら、Gradients (DLG)攻撃からのDeep Leakageを効果的に軽減するHEベースのFLパイプラインを開発した。
論文 参考訳(メタデータ) (2025-06-09T16:12:18Z) - Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。
我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。
当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文 参考訳(メタデータ) (2025-04-28T08:41:12Z) - MOS: Towards Effective Smart Contract Vulnerability Detection through Mixture-of-Experts Tuning of Large Language Models [16.16186929130931]
スマートコントラクトの脆弱性は、ブロックチェーンシステムに重大なセキュリティリスクをもたらす。
本稿では,大規模言語モデルのミックス・オブ・エキスパート・チューニング(MOE-Tuning)に基づくスマートコントラクト脆弱性検出フレームワークを提案する。
実験の結果、MOSはF1のスコアが6.32%、精度が4.80%の平均的な改善で既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-16T16:33:53Z) - The Digital Cybersecurity Expert: How Far Have We Come? [49.89857422097055]
我々は,サイバーセキュリティの専門家が期待する345の知識ポイントに基づいた,きめ細かいサイバーセキュリティ評価フレームワークであるCSEBenchmarkを開発した。
CSEBenchmarkで12のポピュラーな大言語モデル(LLM)を評価し、最高のパフォーマンスモデルでさえ全体の精度は85.42%に過ぎなかった。
各LSMにおける特定の知識ギャップを特定し,対処することにより,事前の誤り予測の修正において最大84%の改善が達成される。
論文 参考訳(メタデータ) (2025-04-16T05:36:28Z) - Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training [13.680205342714412]
大規模言語モデル(LLM)は、現代の自然言語処理のバックボーンとなっているが、センシティブなトレーニングデータの漏洩に関するプライバシー上の懸念を生じさせている。
本稿では,トークン固有の特徴を活用して,言語モデルのトレーニングデータを保護するための,軽量かつ効果的な経験的プライバシ保護手法である methodname を提案する。
論文 参考訳(メタデータ) (2025-02-27T03:37:45Z) - Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training [1.5029560229270191]
大規模言語モデル(LLM)は、金融、法律、医学などの専門分野において顕著な進歩を見せている。
本稿では,プレトレーニング,命令微調整,蒸留の推論など,すべての主要な訓練段階をカバーする包括的なデータセットについて紹介する。
データセットの継続事前トレーニングでは、集計スコアが15.88%向上し、蒸留の推論ではセキュリティ認証が10%向上した。
論文 参考訳(メタデータ) (2025-02-16T16:34:49Z) - Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2025-02-10T15:54:34Z) - SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals [51.60874286674908]
我々は、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問応答(QA)の性能を予測することを目指している。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を線形に相関する情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は、無線ネットワークにおいて大きな変革をもたらしている。
無線環境では、LLMのトレーニングはセキュリティとプライバシに関する重大な課題に直面している。
本稿では,無線ネットワークにおけるLLMのトレーニング段階の体系的解析を行い,事前学習,命令チューニング,アライメントチューニングを行う。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。