論文の概要: CyberCertBench: Evaluating LLMs in Cybersecurity Certification Knowledge
- arxiv url: http://arxiv.org/abs/2604.20389v1
- Date: Wed, 22 Apr 2026 09:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.071222
- Title: CyberCertBench: Evaluating LLMs in Cybersecurity Certification Knowledge
- Title(参考訳): CyberCertBench: サイバーセキュリティ認定知識におけるLLMの評価
- Authors: Gustav Keppler, Ghada Elbez, Veit Hagenmeyer,
- Abstract要約: 我々はCyberCertBenchを紹介した。CyberCertBenchは、業界認定認定から派生したMultiple Choice Question Answering(MCQA)ベンチマークスイートである。
CyberCertBenchは、情報技術のサイバーセキュリティの専門標準に対してドメイン知識を評価する。
我々の評価は、フロンティアが一般ネットワークとITセキュリティの知識において、人間専門家のレベルをモデル化していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution and use of Large Language Models (LLMs) in professional workflows require an evaluation of their domain-specific knowledge against industry standards. We introduceCyberCertBench, a new suite of Multiple Choice Question Answering (MCQA) benchmarks derived from industry recognized certifications. CyberCertBench evaluates LLM domain knowledgeagainst the professional standards of Information Technology cybersecurity and more specializedareas such as Operational Technology and related cybersecurity standards. Concurrently, we propose and validate a novel Proposer-Verifier framework, a methodology to generate interpretable,natural language explanations for model performance. Our evaluation shows that frontier modelsachieve human expert level in general networking and IT security knowledge. However, theiraccuracy declines in questions that require vendor-specific nuances or knowledge in formalstandards, like, e.g., IEC 62443. Analysis of model scaling trend and release date demonstratesremarkable gains in parameter efficiency, while recent larger models show diminishing returns.Code and evaluation scripts are available at: https://github.com/GKeppler/CyberCertBench.
- Abstract(参考訳): プロフェッショナルワークフローにおけるLarge Language Models(LLM)の急速な進化と利用には、業界標準に対するドメイン固有の知識の評価が必要である。
我々はCyberCertBenchを紹介した。CyberCertBenchは、業界認定認定から派生したMultiple Choice Question Answering(MCQA)ベンチマークスイートである。
CyberCertBenchは、LLMドメインの知識を、情報技術サイバーセキュリティの専門標準と、オペレーション技術や関連するサイバーセキュリティ標準のような専門分野の知識として評価している。
同時に,モデル性能のための解釈可能な自然な言語説明を生成する手法であるProposer-Verifierフレームワークを提案し,検証する。
我々の評価は、フロンティアが一般ネットワークとITセキュリティの知識において、人間専門家のレベルをモデル化していることを示している。
しかし、ベンダー固有のニュアンスや、IEC 62443のような形式標準での知識を必要とする問題では、それらの正確性は低下している。
モデルのスケーリングトレンドとリリース日の分析は、パラメータ効率の顕著な向上を示し、最近の大きなモデルでは、リターンが減少している。
関連論文リスト
- Leveraging Large Language Models for Trustworthiness Assessment of Web Applications [13.909850314037653]
本研究では,大規模言語モデル(LLM)を活用したWebアプリケーションの信頼性評価を自動化する実証的手法を提案する。
本稿では,LSP(Logic Score of Preference)に基づく階層品質モデルの拡張を提案する。
実験結果から,過度な構造的コンテキストがノイズを発生させる可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-24T23:33:54Z) - CREDIT: Certified Ownership Verification of Deep Neural Networks Against Model Extraction Attacks [54.04030169323115]
我々は、モデル抽出攻撃(MEA)に対する認証された所有権検証であるCREDITを紹介する。
DNNモデル間の類似性を定量化し、実用的な検証しきい値を提案し、このしきい値に基づいてオーナシップ検証を行うための厳密な理論的保証を提供する。
我々は、さまざまなドメインやタスクにまたがるいくつかの主流データセットに対するアプローチを広範囲に評価し、最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2026-02-23T23:36:25Z) - A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance [58.21767225794469]
大規模言語モデル(LLM)エージェントは、しばしばルールや必要なドメイン知識が頻繁に変化する環境で苦労する。
テスト時に更新されたドメイン知識を継続的に学習するための適応反射型対話エージェント(ARIA)を提案する。
ARIAはTikTok Pay内にデプロイされ、月間アクティブユーザ数は1億5000万を超えている。
論文 参考訳(メタデータ) (2025-07-23T02:12:32Z) - CRAKEN: Cybersecurity LLM Agent with Knowledge-Based Execution [22.86304661035188]
大規模言語モデル(LLM)エージェントは、サイバーセキュリティタスクを自動化することができ、再設計することなく、進化するサイバーセキュリティの状況に適応することができる。
トレーニングデータ以外の最新のサイバーセキュリティの専門知識にアクセスし、複雑なタスク計画に新たな知識を統合することだ。
本稿では,3つのコア機構を通じて,サイバーセキュリティ能力を向上させる知識ベースLLMエージェントフレームワークであるCRAKENを提案する。
論文 参考訳(メタデータ) (2025-05-21T11:01:11Z) - The Digital Cybersecurity Expert: How Far Have We Come? [49.89857422097055]
我々は,サイバーセキュリティの専門家が期待する345の知識ポイントに基づいた,きめ細かいサイバーセキュリティ評価フレームワークであるCSEBenchmarkを開発した。
CSEBenchmarkで12のポピュラーな大言語モデル(LLM)を評価し、最高のパフォーマンスモデルでさえ全体の精度は85.42%に過ぎなかった。
各LSMにおける特定の知識ギャップを特定し,対処することにより,事前の誤り予測の修正において最大84%の改善が達成される。
論文 参考訳(メタデータ) (2025-04-16T05:36:28Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - SECURE: Benchmarking Large Language Models for Cybersecurity [0.6741087029030101]
大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-30T19:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。