論文の概要: CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge
- arxiv url: http://arxiv.org/abs/2402.07688v2
- Date: Mon, 3 Jun 2024 08:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:53:33.870619
- Title: CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge
- Title(参考訳): CyberMetric: サイバーセキュリティ知識におけるLLM評価のための検索拡張生成に基づくベンチマークデータセット
- Authors: Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Tamas Bisztray, Merouane Debbah,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発からサイバー脅威インテリジェンスまで、さまざまな領域でますます利用されている。
サイバーセキュリティにおけるLLMの一般的な知識を正確にテストするためには、研究コミュニティは多様で正確で最新のデータセットが必要である。
我々はCyberMetric-80,CyberMetric-500,CyberMetric-2000,CyberMetric-10000を紹介する。
- 参考スコア(独自算出の注目度): 2.0893807243791636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used across various domains, from software development to cyber threat intelligence. Understanding all the different fields of cybersecurity, which includes topics such as cryptography, reverse engineering, and risk assessment, poses a challenge even for human experts. To accurately test the general knowledge of LLMs in cybersecurity, the research community needs a diverse, accurate, and up-to-date dataset. To address this gap, we present CyberMetric-80, CyberMetric-500, CyberMetric-2000, and CyberMetric-10000, which are multiple-choice Q&A benchmark datasets comprising 80, 500, 2000, and 10,000 questions respectively. By utilizing GPT-3.5 and Retrieval-Augmented Generation (RAG), we collected documents, including NIST standards, research papers, publicly accessible books, RFCs, and other publications in the cybersecurity domain, to generate questions, each with four possible answers. The results underwent several rounds of error checking and refinement. Human experts invested over 200 hours validating the questions and solutions to ensure their accuracy and relevance, and to filter out any questions unrelated to cybersecurity. We have evaluated and compared 25 state-of-the-art LLM models on the CyberMetric datasets. In addition to our primary goal of evaluating LLMs, we involved 30 human participants to solve CyberMetric-80 in a closed-book scenario. The results can serve as a reference for comparing the general cybersecurity knowledge of humans and LLMs. The findings revealed that GPT-4o, GPT-4-turbo, Mixtral-8x7B-Instruct, Falcon-180B-Chat, and GEMINI-pro 1.0 were the best-performing LLMs. Additionally, the top LLMs were more accurate than humans on CyberMetric-80, although highly experienced human experts still outperformed small models such as Llama-3-8B, Phi-2 or Gemma-7b.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア開発からサイバー脅威インテリジェンスまで、さまざまな領域で利用されている。
暗号、リバースエンジニアリング、リスクアセスメントなどのトピックを含む、サイバーセキュリティのさまざまな分野を理解することは、人間の専門家にとっても課題となる。
サイバーセキュリティにおけるLLMの一般的な知識を正確にテストするためには、研究コミュニティは多様で正確で最新のデータセットが必要である。
このギャップに対処するため,CyberMetric-80,CyberMetric-500,CyberMetric-2000,CyberMetric-10000を提示する。
GPT-3.5 と Retrieval-Augmented Generation (RAG) を利用して,NIST 標準,研究論文,公開書籍,RFC,その他のサイバーセキュリティ分野の出版物を収集し,それぞれ4つの可能な回答を得た。
結果は数ラウンドのエラーチェックと改善が行われた。
人間の専門家は200時間以上かけて、その正確さと関連性を確認し、サイバーセキュリティとは無関係な質問をフィルタリングするために、質問とソリューションの検証に費やした。
我々は、CyberMetricデータセット上で25の最先端LCMモデルを評価し、比較した。
LLMを評価することの第一目標に加えて、クローズドブックシナリオでCyberMetric-80を解決するために30人の参加者が参加しました。
この結果は、人間とLLMの一般的なサイバーセキュリティ知識を比較するための参考となる。
その結果, GPT-4o, GPT-4-turbo, Mixtral-8x7B-Instruct, Falcon-180B-Chat, GEMINI-pro 1.0が最も優れたLCMであることが判明した。
加えて、上位のLLMはCyberMetric-80の人間よりも精度が高かったが、経験豊富な人間の専門家はLlama-3-8B、Phi-2、Gemma-7bといった小型モデルよりも優れていた。
関連論文リスト
- CS-Eval: A Comprehensive Large Language Model Benchmark for CyberSecurity [25.07282324266835]
CS-Evalは、サイバーセキュリティにおける大規模言語モデル(LLM)のベンチマークである。
学界から研究ホットスポットを合成し、産業から実用化する。
高品質な質問を3つの認知レベル(知識、能力、応用)に分類する。
論文 参考訳(メタデータ) (2024-11-25T09:54:42Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions [0.2999888908665658]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)機能を持ち、様々なアプリケーションにまたがる汎用機能を提供する。
しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。
本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。
論文 参考訳(メタデータ) (2024-08-17T22:37:39Z) - The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums [0.0]
大規模言語モデル(LLM)は、サイバー犯罪フォーラムからサイバー脅威インテリジェンス(CTI)データを分析するために使用することができる。
本研究では,OpenAI GPT-3.5-turboモデル[8]上に構築したLCMシステムの性能評価を行い,CTI情報を抽出する。
論文 参考訳(メタデータ) (2024-08-06T09:15:25Z) - Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - When LLMs Meet Cybersecurity: A Systematic Literature Review [9.347716970758604]
大規模言語モデル(LLM)は、サイバーセキュリティを含む様々な分野に新しい道を開いた。
この研究領域の包括的概要は欠如している。
本研究は,LLMがサイバーセキュリティの実践を強化する上での広範な可能性を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-05-06T17:07:28Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。