論文の概要: CyberMetric: A Benchmark Dataset for Evaluating Large Language Models
Knowledge in Cybersecurity
- arxiv url: http://arxiv.org/abs/2402.07688v1
- Date: Mon, 12 Feb 2024 14:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:07:57.754457
- Title: CyberMetric: A Benchmark Dataset for Evaluating Large Language Models
Knowledge in Cybersecurity
- Title(参考訳): CyberMetric:サイバーセキュリティにおける大規模言語モデルの知識評価のためのベンチマークデータセット
- Authors: Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Merouane Debbah
- Abstract要約: 私たちはCyberMetricというベンチマークデータセットを紹介します。これは、標準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットです。
主な目標は、サイバーセキュリティにおける人間と異なる大規模言語モデル(LLM)の公正な比較を促進することである。
その結果、LLMはサイバーセキュリティのほぼすべての面で人間よりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 2.4487691107306655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel across various domains, from computer
vision to medical diagnostics. However, understanding the diverse landscape of
cybersecurity, encompassing cryptography, reverse engineering, and managerial
facets like risk assessment, presents a challenge, even for human experts. In
this paper, we introduce CyberMetric, a benchmark dataset comprising 10,000
questions sourced from standards, certifications, research papers, books, and
other publications in the cybersecurity domain. The questions are created
through a collaborative process, i.e., merging expert knowledge with LLMs,
including GPT-3.5 and Falcon-180B. Human experts spent over 200 hours verifying
their accuracy and relevance. Beyond assessing LLMs' knowledge, the dataset's
main goal is to facilitate a fair comparison between humans and different LLMs
in cybersecurity. To achieve this, we carefully selected 80 questions covering
a wide range of topics within cybersecurity and involved 30 participants of
diverse expertise levels, facilitating a comprehensive comparison between human
and machine intelligence in this area. The findings revealed that LLMs
outperformed humans in almost every aspect of cybersecurity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンピュータビジョンから医学診断まで、様々な領域にまたがる。
しかし、暗号、リバースエンジニアリング、リスクアセスメントのような管理面を含む、サイバーセキュリティの多様な風景を理解することは、人間の専門家にとっても課題である。
本稿では、基準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットであるCyberMetricを紹介する。
これらの質問は、gpt-3.5やfalcon-180bなど、専門家の知識とllmを融合するコラボレーションプロセスによって作成される。
人間の専門家は200時間以上かけて正確さと妥当性を確認した。
LLMの知識を評価すること以外に、データセットの主な目標は、サイバーセキュリティにおける人間と異なるLLMとの公正な比較を促進することである。
これを実現するために、サイバーセキュリティの幅広いトピックをカバーする80の質問を慎重に選択し、さまざまな専門知識レベルの30の参加者を巻き込み、この分野における人間とマシンインテリジェンスの包括的比較を容易にした。
その結果、LLMはサイバーセキュリティのあらゆる面で人間よりも優れていた。
関連論文リスト
- CS-Eval: A Comprehensive Large Language Model Benchmark for CyberSecurity [25.07282324266835]
CS-Evalは、サイバーセキュリティにおける大規模言語モデル(LLM)のベンチマークである。
学界から研究ホットスポットを合成し、産業から実用化する。
高品質な質問を3つの認知レベル(知識、能力、応用)に分類する。
論文 参考訳(メタデータ) (2024-11-25T09:54:42Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions [0.2999888908665658]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)機能を持ち、様々なアプリケーションにまたがる汎用機能を提供する。
しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。
本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。
論文 参考訳(メタデータ) (2024-08-17T22:37:39Z) - The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums [0.0]
大規模言語モデル(LLM)は、サイバー犯罪フォーラムからサイバー脅威インテリジェンス(CTI)データを分析するために使用することができる。
本研究では,OpenAI GPT-3.5-turboモデル[8]上に構築したLCMシステムの性能評価を行い,CTI情報を抽出する。
論文 参考訳(メタデータ) (2024-08-06T09:15:25Z) - Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - When LLMs Meet Cybersecurity: A Systematic Literature Review [9.347716970758604]
大規模言語モデル(LLM)は、サイバーセキュリティを含む様々な分野に新しい道を開いた。
この研究領域の包括的概要は欠如している。
本研究は,LLMがサイバーセキュリティの実践を強化する上での広範な可能性を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-05-06T17:07:28Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。