論文の概要: CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge
- arxiv url: http://arxiv.org/abs/2402.07688v2
- Date: Mon, 3 Jun 2024 08:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:53:33.870619
- Title: CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge
- Title(参考訳): CyberMetric: サイバーセキュリティ知識におけるLLM評価のための検索拡張生成に基づくベンチマークデータセット
- Authors: Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Tamas Bisztray, Merouane Debbah,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発からサイバー脅威インテリジェンスまで、さまざまな領域でますます利用されている。
サイバーセキュリティにおけるLLMの一般的な知識を正確にテストするためには、研究コミュニティは多様で正確で最新のデータセットが必要である。
我々はCyberMetric-80,CyberMetric-500,CyberMetric-2000,CyberMetric-10000を紹介する。
- 参考スコア(独自算出の注目度): 2.0893807243791636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used across various domains, from software development to cyber threat intelligence. Understanding all the different fields of cybersecurity, which includes topics such as cryptography, reverse engineering, and risk assessment, poses a challenge even for human experts. To accurately test the general knowledge of LLMs in cybersecurity, the research community needs a diverse, accurate, and up-to-date dataset. To address this gap, we present CyberMetric-80, CyberMetric-500, CyberMetric-2000, and CyberMetric-10000, which are multiple-choice Q&A benchmark datasets comprising 80, 500, 2000, and 10,000 questions respectively. By utilizing GPT-3.5 and Retrieval-Augmented Generation (RAG), we collected documents, including NIST standards, research papers, publicly accessible books, RFCs, and other publications in the cybersecurity domain, to generate questions, each with four possible answers. The results underwent several rounds of error checking and refinement. Human experts invested over 200 hours validating the questions and solutions to ensure their accuracy and relevance, and to filter out any questions unrelated to cybersecurity. We have evaluated and compared 25 state-of-the-art LLM models on the CyberMetric datasets. In addition to our primary goal of evaluating LLMs, we involved 30 human participants to solve CyberMetric-80 in a closed-book scenario. The results can serve as a reference for comparing the general cybersecurity knowledge of humans and LLMs. The findings revealed that GPT-4o, GPT-4-turbo, Mixtral-8x7B-Instruct, Falcon-180B-Chat, and GEMINI-pro 1.0 were the best-performing LLMs. Additionally, the top LLMs were more accurate than humans on CyberMetric-80, although highly experienced human experts still outperformed small models such as Llama-3-8B, Phi-2 or Gemma-7b.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア開発からサイバー脅威インテリジェンスまで、さまざまな領域で利用されている。
暗号、リバースエンジニアリング、リスクアセスメントなどのトピックを含む、サイバーセキュリティのさまざまな分野を理解することは、人間の専門家にとっても課題となる。
サイバーセキュリティにおけるLLMの一般的な知識を正確にテストするためには、研究コミュニティは多様で正確で最新のデータセットが必要である。
このギャップに対処するため,CyberMetric-80,CyberMetric-500,CyberMetric-2000,CyberMetric-10000を提示する。
GPT-3.5 と Retrieval-Augmented Generation (RAG) を利用して,NIST 標準,研究論文,公開書籍,RFC,その他のサイバーセキュリティ分野の出版物を収集し,それぞれ4つの可能な回答を得た。
結果は数ラウンドのエラーチェックと改善が行われた。
人間の専門家は200時間以上かけて、その正確さと関連性を確認し、サイバーセキュリティとは無関係な質問をフィルタリングするために、質問とソリューションの検証に費やした。
我々は、CyberMetricデータセット上で25の最先端LCMモデルを評価し、比較した。
LLMを評価することの第一目標に加えて、クローズドブックシナリオでCyberMetric-80を解決するために30人の参加者が参加しました。
この結果は、人間とLLMの一般的なサイバーセキュリティ知識を比較するための参考となる。
その結果, GPT-4o, GPT-4-turbo, Mixtral-8x7B-Instruct, Falcon-180B-Chat, GEMINI-pro 1.0が最も優れたLCMであることが判明した。
加えて、上位のLLMはCyberMetric-80の人間よりも精度が高かったが、経験豊富な人間の専門家はLlama-3-8B、Phi-2、Gemma-7bといった小型モデルよりも優れていた。
関連論文リスト
- Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training [1.5029560229270191]
大規模言語モデル(LLM)は、金融、法律、医学などの専門分野において顕著な進歩を見せている。
本稿では,プレトレーニング,命令微調整,蒸留の推論など,すべての主要な訓練段階をカバーする包括的なデータセットについて紹介する。
データセットの継続事前トレーニングでは、集計スコアが15.88%向上し、蒸留の推論ではセキュリティ認証が10%向上した。
論文 参考訳(メタデータ) (2025-02-16T16:34:49Z) - Humanity's Last Exam [253.45228996132735]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity [23.32017147274093]
SecBenchは、サイバーセキュリティドメインの大規模言語モデル(LLM)を評価するために設計されたベンチマークデータセットである。
このデータセットは、オープンソースから高品質なデータを収集し、サイバーセキュリティ質問設計コンテストを組織することで構築された。
16個のSOTA LLMのベンチマーク結果はSecBenchのユーザビリティを示している。
論文 参考訳(メタデータ) (2024-12-30T08:11:54Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions [0.2999888908665658]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)機能を持ち、様々なアプリケーションにまたがる汎用機能を提供する。
しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。
本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。
論文 参考訳(メタデータ) (2024-08-17T22:37:39Z) - The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums [0.0]
大規模言語モデル(LLM)は、サイバー犯罪フォーラムからサイバー脅威インテリジェンス(CTI)データを分析するために使用することができる。
本研究では,OpenAI GPT-3.5-turboモデル[8]上に構築したLCMシステムの性能評価を行い,CTI情報を抽出する。
論文 参考訳(メタデータ) (2024-08-06T09:15:25Z) - When LLMs Meet Cybersecurity: A Systematic Literature Review [17.15648352517217]
大規模言語モデル(LLM)の急速な開発は、サイバーセキュリティを含む様々な分野に新しい道を開いた。
この研究領域の包括的概要は欠如している。
包括的概要は、サイバーセキュリティ指向のLSMの構築、様々なサイバーセキュリティタスクへのLSMの適用、この分野における課題とさらなる研究の3つの重要な研究課題に対処する。
論文 参考訳(メタデータ) (2024-05-06T17:07:28Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。