論文の概要: CyberMetric: A Benchmark Dataset for Evaluating Large Language Models
Knowledge in Cybersecurity
- arxiv url: http://arxiv.org/abs/2402.07688v1
- Date: Mon, 12 Feb 2024 14:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:07:57.754457
- Title: CyberMetric: A Benchmark Dataset for Evaluating Large Language Models
Knowledge in Cybersecurity
- Title(参考訳): CyberMetric:サイバーセキュリティにおける大規模言語モデルの知識評価のためのベンチマークデータセット
- Authors: Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Merouane Debbah
- Abstract要約: 私たちはCyberMetricというベンチマークデータセットを紹介します。これは、標準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットです。
主な目標は、サイバーセキュリティにおける人間と異なる大規模言語モデル(LLM)の公正な比較を促進することである。
その結果、LLMはサイバーセキュリティのほぼすべての面で人間よりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 2.4487691107306655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel across various domains, from computer
vision to medical diagnostics. However, understanding the diverse landscape of
cybersecurity, encompassing cryptography, reverse engineering, and managerial
facets like risk assessment, presents a challenge, even for human experts. In
this paper, we introduce CyberMetric, a benchmark dataset comprising 10,000
questions sourced from standards, certifications, research papers, books, and
other publications in the cybersecurity domain. The questions are created
through a collaborative process, i.e., merging expert knowledge with LLMs,
including GPT-3.5 and Falcon-180B. Human experts spent over 200 hours verifying
their accuracy and relevance. Beyond assessing LLMs' knowledge, the dataset's
main goal is to facilitate a fair comparison between humans and different LLMs
in cybersecurity. To achieve this, we carefully selected 80 questions covering
a wide range of topics within cybersecurity and involved 30 participants of
diverse expertise levels, facilitating a comprehensive comparison between human
and machine intelligence in this area. The findings revealed that LLMs
outperformed humans in almost every aspect of cybersecurity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンピュータビジョンから医学診断まで、様々な領域にまたがる。
しかし、暗号、リバースエンジニアリング、リスクアセスメントのような管理面を含む、サイバーセキュリティの多様な風景を理解することは、人間の専門家にとっても課題である。
本稿では、基準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットであるCyberMetricを紹介する。
これらの質問は、gpt-3.5やfalcon-180bなど、専門家の知識とllmを融合するコラボレーションプロセスによって作成される。
人間の専門家は200時間以上かけて正確さと妥当性を確認した。
LLMの知識を評価すること以外に、データセットの主な目標は、サイバーセキュリティにおける人間と異なるLLMとの公正な比較を促進することである。
これを実現するために、サイバーセキュリティの幅広いトピックをカバーする80の質問を慎重に選択し、さまざまな専門知識レベルの30の参加者を巻き込み、この分野における人間とマシンインテリジェンスの包括的比較を容易にした。
その結果、LLMはサイバーセキュリティのあらゆる面で人間よりも優れていた。
関連論文リスト
- Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training [1.5029560229270191]
大規模言語モデル(LLM)は、金融、法律、医学などの専門分野において顕著な進歩を見せている。
本稿では,プレトレーニング,命令微調整,蒸留の推論など,すべての主要な訓練段階をカバーする包括的なデータセットについて紹介する。
データセットの継続事前トレーニングでは、集計スコアが15.88%向上し、蒸留の推論ではセキュリティ認証が10%向上した。
論文 参考訳(メタデータ) (2025-02-16T16:34:49Z) - Humanity's Last Exam [253.45228996132735]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity [23.32017147274093]
SecBenchは、サイバーセキュリティドメインの大規模言語モデル(LLM)を評価するために設計されたベンチマークデータセットである。
このデータセットは、オープンソースから高品質なデータを収集し、サイバーセキュリティ質問設計コンテストを組織することで構築された。
16個のSOTA LLMのベンチマーク結果はSecBenchのユーザビリティを示している。
論文 参考訳(メタデータ) (2024-12-30T08:11:54Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions [0.2999888908665658]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)機能を持ち、様々なアプリケーションにまたがる汎用機能を提供する。
しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。
本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。
論文 参考訳(メタデータ) (2024-08-17T22:37:39Z) - The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums [0.0]
大規模言語モデル(LLM)は、サイバー犯罪フォーラムからサイバー脅威インテリジェンス(CTI)データを分析するために使用することができる。
本研究では,OpenAI GPT-3.5-turboモデル[8]上に構築したLCMシステムの性能評価を行い,CTI情報を抽出する。
論文 参考訳(メタデータ) (2024-08-06T09:15:25Z) - When LLMs Meet Cybersecurity: A Systematic Literature Review [17.15648352517217]
大規模言語モデル(LLM)の急速な開発は、サイバーセキュリティを含む様々な分野に新しい道を開いた。
この研究領域の包括的概要は欠如している。
包括的概要は、サイバーセキュリティ指向のLSMの構築、様々なサイバーセキュリティタスクへのLSMの適用、この分野における課題とさらなる研究の3つの重要な研究課題に対処する。
論文 参考訳(メタデータ) (2024-05-06T17:07:28Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。