論文の概要: CyberMetric: A Benchmark Dataset for Evaluating Large Language Models
Knowledge in Cybersecurity
- arxiv url: http://arxiv.org/abs/2402.07688v1
- Date: Mon, 12 Feb 2024 14:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:07:57.754457
- Title: CyberMetric: A Benchmark Dataset for Evaluating Large Language Models
Knowledge in Cybersecurity
- Title(参考訳): CyberMetric:サイバーセキュリティにおける大規模言語モデルの知識評価のためのベンチマークデータセット
- Authors: Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Merouane Debbah
- Abstract要約: 私たちはCyberMetricというベンチマークデータセットを紹介します。これは、標準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットです。
主な目標は、サイバーセキュリティにおける人間と異なる大規模言語モデル(LLM)の公正な比較を促進することである。
その結果、LLMはサイバーセキュリティのほぼすべての面で人間よりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 2.4487691107306655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel across various domains, from computer
vision to medical diagnostics. However, understanding the diverse landscape of
cybersecurity, encompassing cryptography, reverse engineering, and managerial
facets like risk assessment, presents a challenge, even for human experts. In
this paper, we introduce CyberMetric, a benchmark dataset comprising 10,000
questions sourced from standards, certifications, research papers, books, and
other publications in the cybersecurity domain. The questions are created
through a collaborative process, i.e., merging expert knowledge with LLMs,
including GPT-3.5 and Falcon-180B. Human experts spent over 200 hours verifying
their accuracy and relevance. Beyond assessing LLMs' knowledge, the dataset's
main goal is to facilitate a fair comparison between humans and different LLMs
in cybersecurity. To achieve this, we carefully selected 80 questions covering
a wide range of topics within cybersecurity and involved 30 participants of
diverse expertise levels, facilitating a comprehensive comparison between human
and machine intelligence in this area. The findings revealed that LLMs
outperformed humans in almost every aspect of cybersecurity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンピュータビジョンから医学診断まで、様々な領域にまたがる。
しかし、暗号、リバースエンジニアリング、リスクアセスメントのような管理面を含む、サイバーセキュリティの多様な風景を理解することは、人間の専門家にとっても課題である。
本稿では、基準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットであるCyberMetricを紹介する。
これらの質問は、gpt-3.5やfalcon-180bなど、専門家の知識とllmを融合するコラボレーションプロセスによって作成される。
人間の専門家は200時間以上かけて正確さと妥当性を確認した。
LLMの知識を評価すること以外に、データセットの主な目標は、サイバーセキュリティにおける人間と異なるLLMとの公正な比較を促進することである。
これを実現するために、サイバーセキュリティの幅広いトピックをカバーする80の質問を慎重に選択し、さまざまな専門知識レベルの30の参加者を巻き込み、この分野における人間とマシンインテリジェンスの包括的比較を容易にした。
その結果、LLMはサイバーセキュリティのあらゆる面で人間よりも優れていた。
関連論文リスト
- Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - When LLMs Meet Cybersecurity: A Systematic Literature Review [9.347716970758604]
大規模言語モデル(LLM)は、サイバーセキュリティを含む様々な分野に新しい道を開いた。
この研究領域の包括的概要は欠如している。
本研究は,LLMがサイバーセキュリティの実践を強化する上での広範な可能性を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-05-06T17:07:28Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.55668851171251]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - Large Language Models in Cybersecurity: State-of-the-Art [4.990712773805833]
大規模言語モデル(LLM)の台頭は、私たちの知性の理解に革命をもたらした。
本研究は, サイバーセキュリティの領域におけるLLMの防衛的, 敵的応用の徹底的な評価を, 既存の文献を考察した。
論文 参考訳(メタデータ) (2024-01-30T16:55:25Z) - Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。
CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文 参考訳(メタデータ) (2023-12-07T22:07:54Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - Graph Mining for Cybersecurity: A Survey [61.505995908021525]
マルウェア、スパム、侵入などのサイバー攻撃の爆発的な増加は、社会に深刻な影響をもたらした。
従来の機械学習(ML)ベースの手法は、サイバー脅威の検出に広く用いられているが、現実のサイバーエンティティ間の相関をモデル化することはほとんどない。
グラフマイニング技術の普及に伴い、サイバーエンティティ間の相関を捉え、高いパフォーマンスを達成するために、多くの研究者がこれらの手法を調査した。
論文 参考訳(メタデータ) (2023-04-02T08:43:03Z) - Exploring the Limits of Transfer Learning with Unified Model in the
Cybersecurity Domain [17.225973170682604]
生成型マルチタスクモデル Unified Text-to-Text Cybersecurity (UTS) を導入する。
UTSはマルウェアレポート、フィッシングサイトURL、プログラミングコード構造、ソーシャルメディアデータ、ブログ、ニュース記事、フォーラムの投稿で訓練されている。
UTSはいくつかのサイバーセキュリティデータセットの性能を改善している。
論文 参考訳(メタデータ) (2023-02-20T22:21:26Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Proceedings of the Artificial Intelligence for Cyber Security (AICS)
Workshop at AAAI 2022 [55.573187938617636]
ワークショップは、サイバーセキュリティの問題へのAIの適用に焦点を当てる。
サイバーシステムは大量のデータを生成し、これを効果的に活用することは人間の能力を超えます。
論文 参考訳(メタデータ) (2022-02-28T18:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。