論文の概要: Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks
- arxiv url: http://arxiv.org/abs/2605.23243v1
- Date: Fri, 22 May 2026 05:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.209382
- Title: Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks
- Title(参考訳): サイバーセキュリティのためのフロンティアLSMは準備が整っているか? デュアルモード脆弱性ベンチマークによる垂直ファンデーションモデルの証拠
- Authors: Vivek Dahiya, Sunny Nehra, Vipul Dholariya, Bhavik Shangari, Chandra Khatri,
- Abstract要約: デュアルモードベンチマークにより,フロンティアLSMがサイバーセキュリティの準備ができているかを評価する。
我々は6つのフロンティアモデル(GPT-5.4、Codex5.3、Claude Opus4.6、Sonnet4.6、Gemini3.1Pro、Gemini3Flash)と4つのテストパラダイムにまたがる2つのドメイン特化モデルをテストする。
- 参考スコア(独自算出の注目度): 0.3303672705634661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate whether frontier LLMs are ready for cybersecurity through a dual-mode benchmark: white-box function-level vulnerability detection (VulnLLM-R, across C/Java/Python) and black-box web application security testing (five production-style applications with 118 ground-truth vulnerabilities across 20+ CWE families, which we will open-source). We test six frontier models (GPT-5.4, Codex~5.3, Claude Opus~4.6, Sonnet~4.6, Gemini~3.1~Pro and Gemini~3~Flash) and two domain-specialized models across four testing paradigms. Our findings are sobering: (1)~every frontier model produces 10-50% false positive rates in white-box detection, systematically over-predicting vulnerabilities; (2)~in black-box testing, frontier models achieve only 4-8% ground-truth coverage, improving to just 10-19% even with external security tools (Playwright MCP, Burp Suite MCP); (3)~structured penetration-testing methodology encoded in domain-specialized agents raises per-family detection above 50%, demonstrating that methodology, not scale, is the primary lever; and (4)~a domain-specialized defense model achieves the highest precision (0.904) and lowest false positive rate (9.7%) among all models, on a single GPU. We identify the absence of structured security testing traces end-to-end request/response sequences, failure-heavy data, and multi-step attack chains as the fundamental training data bottleneck, and propose self-play security testing as a data generation strategy. Our results make the case for vertical foundation models purpose-built for cybersecurity.
- Abstract(参考訳): ホワイトボックス関数レベル脆弱性検出(VulnLLM-R、C/Java/Pythonにまたがる)とブラックボックスWebアプリケーションセキュリティテスト(20以上のCWEファミリーに118のグランドトルース脆弱性を持つプロダクションスタイルの5つのアプリケーション)である。
我々は6つのフロンティアモデル(GPT-5.4, Codex~5.3, Claude Opus~4.6, Sonnet~4.6, Gemini~3.1~Pro, Gemini~3~Flash)と4つのテストパラダイムにまたがる2つのドメイン特化モデルをテストする。
その結果,(1)フロンティアモデルでは,外部セキュリティツール(Playwright MCP, Burp Suite MCP),(3)ドメイン固有化エージェントにコードされた構造的侵入試験手法では,家族ごとの検出が50%以上増加し,その方法論はスケールではなく,プライマリレバーである,(4)ドメイン固有化防衛モデルでは最大精度(0.904)と最低精度(97%)を1つのGPU上で達成する,という結果が得られた。
構造化されたセキュリティテストの欠如、エンドツーエンドの要求/応答シーケンス、障害重大データ、マルチステップ攻撃チェーンが基本的なトレーニングデータボトルネックとして認識され、データ生成戦略としてセルフプレイセキュリティテストが提案される。
この結果から,サイバーセキュリティを念頭に構築した垂直ファンデーションモデルについて考察した。
関連論文リスト
- Benchmarking LLAMA Model Security Against OWASP Top 10 For LLM Applications [0.0]
本研究は,LLMアプリケーションフレームワークのトップ10に対して,さまざまなLlamaモデルの変種をベンチマークする。
5つの標準Llamaモデルと5つのLlama Guardを10の脆弱性カテゴリをカバーする100の逆プロンプトでテストした。
コンパクトなLlama-Guard-3-1Bモデルは、最小レイテンシで76%の最高検出率を達成した。
モデルサイズとセキュリティの有効性の逆関係を観察し、より小型の特殊なモデルがセキュリティタスクにおいてより大きな汎用モデルよりも優れていることを示唆する。
論文 参考訳(メタデータ) (2026-01-27T18:20:14Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.85182605005619]
トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。
銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。
我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文 参考訳(メタデータ) (2025-05-29T02:22:14Z) - MOS: Towards Effective Smart Contract Vulnerability Detection through Mixture-of-Experts Tuning of Large Language Models [16.16186929130931]
スマートコントラクトの脆弱性は、ブロックチェーンシステムに重大なセキュリティリスクをもたらす。
本稿では,大規模言語モデルのミックス・オブ・エキスパート・チューニング(MOE-Tuning)に基づくスマートコントラクト脆弱性検出フレームワークを提案する。
実験の結果、MOSはF1のスコアが6.32%、精度が4.80%の平均的な改善で既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-16T16:33:53Z) - CyberLLMInstruct: A Pseudo-malicious Dataset Revealing Safety-performance Trade-offs in Cyber Security LLM Fine-tuning [2.549390156222399]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、機会と重要な安全リスクの両方を示します。
我々はサイバーセキュリティタスクにまたがる54,928の擬似重複命令応答ペアのデータセットであるCyberLLMInstructを紹介した。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。