Fugu-MT 論文翻訳(概要): CyberMetric: A Benchmark Dataset for Evaluating Large Language Models Knowledge in Cybersecurity

論文の概要: CyberMetric: A Benchmark Dataset for Evaluating Large Language Models Knowledge in Cybersecurity

arxiv url: http://arxiv.org/abs/2402.07688v1
Date: Mon, 12 Feb 2024 14:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 14:07:57.754457
Title: CyberMetric: A Benchmark Dataset for Evaluating Large Language Models Knowledge in Cybersecurity
Title（参考訳）: CyberMetric:サイバーセキュリティにおける大規模言語モデルの知識評価のためのベンチマークデータセット
Authors: Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Merouane Debbah
Abstract要約: 私たちはCyberMetricというベンチマークデータセットを紹介します。これは、標準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットです。主な目標は、サイバーセキュリティにおける人間と異なる大規模言語モデル(LLM)の公正な比較を促進することである。その結果、LLMはサイバーセキュリティのほぼすべての面で人間よりも優れていたことが判明した。
参考スコア（独自算出の注目度）: 2.4487691107306655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) excel across various domains, from computer vision to medical diagnostics. However, understanding the diverse landscape of cybersecurity, encompassing cryptography, reverse engineering, and managerial facets like risk assessment, presents a challenge, even for human experts. In this paper, we introduce CyberMetric, a benchmark dataset comprising 10,000 questions sourced from standards, certifications, research papers, books, and other publications in the cybersecurity domain. The questions are created through a collaborative process, i.e., merging expert knowledge with LLMs, including GPT-3.5 and Falcon-180B. Human experts spent over 200 hours verifying their accuracy and relevance. Beyond assessing LLMs' knowledge, the dataset's main goal is to facilitate a fair comparison between humans and different LLMs in cybersecurity. To achieve this, we carefully selected 80 questions covering a wide range of topics within cybersecurity and involved 30 participants of diverse expertise levels, facilitating a comprehensive comparison between human and machine intelligence in this area. The findings revealed that LLMs outperformed humans in almost every aspect of cybersecurity.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コンピュータビジョンから医学診断まで、様々な領域にまたがる。しかし、暗号、リバースエンジニアリング、リスクアセスメントのような管理面を含む、サイバーセキュリティの多様な風景を理解することは、人間の専門家にとっても課題である。本稿では、基準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットであるCyberMetricを紹介する。これらの質問は、gpt-3.5やfalcon-180bなど、専門家の知識とllmを融合するコラボレーションプロセスによって作成される。人間の専門家は200時間以上かけて正確さと妥当性を確認した。 LLMの知識を評価すること以外に、データセットの主な目標は、サイバーセキュリティにおける人間と異なるLLMとの公正な比較を促進することである。これを実現するために、サイバーセキュリティの幅広いトピックをカバーする80の質問を慎重に選択し、さまざまな専門知識レベルの30の参加者を巻き込み、この分野における人間とマシンインテリジェンスの包括的比較を容易にした。その結果、LLMはサイバーセキュリティのあらゆる面で人間よりも優れていた。

関連論文リスト

AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。 BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文参考訳（メタデータ） (2025-05-12T08:54:07Z)
Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文参考訳（メタデータ） (2025-04-28T08:41:12Z)
The Digital Cybersecurity Expert: How Far Have We Come? [49.89857422097055]
我々は,サイバーセキュリティの専門家が期待する345の知識ポイントに基づいた,きめ細かいサイバーセキュリティ評価フレームワークであるCSEBenchmarkを開発した。 CSEBenchmarkで12のポピュラーな大言語モデル(LLM)を評価し、最高のパフォーマンスモデルでさえ全体の精度は85.42%に過ぎなかった。各LSMにおける特定の知識ギャップを特定し,対処することにより,事前の誤り予測の修正において最大84%の改善が達成される。
論文参考訳（メタデータ） (2025-04-16T05:36:28Z)
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。 MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文参考訳（メタデータ） (2025-04-13T19:35:43Z)
CyberLLMInstruct: A New Dataset for Analysing Safety of Fine-Tuned LLMs Using Cyber Security Data [2.2530496464901106]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、大きなチャンスをもたらす。 CyberLLMInstructは、サイバーセキュリティタスクにまたがる54,928の命令応答ペアのデータセットである。微調整モデルは、CyberMetricベンチマークで最大92.50%の精度を達成することができる。
論文参考訳（メタデータ） (2025-03-12T12:29:27Z)
Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training [1.5029560229270191]
大規模言語モデル(LLM)は、金融、法律、医学などの専門分野において顕著な進歩を見せている。本稿では,プレトレーニング,命令微調整,蒸留の推論など,すべての主要な訓練段階をカバーする包括的なデータセットについて紹介する。データセットの継続事前トレーニングでは、集計スコアが15.88%向上し、蒸留の推論ではセキュリティ認証が10%向上した。
論文参考訳（メタデータ） (2025-02-16T16:34:49Z)
Humanity's Last Exam [434.8511341499966]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。数学、人文科学、自然科学など、数十の分野にまたがる2,500の質問で構成されている。各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文参考訳（メタデータ） (2025-01-24T05:27:46Z)
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity [23.32017147274093]
SecBenchは、サイバーセキュリティドメインの大規模言語モデル(LLM)を評価するために設計されたベンチマークデータセットである。このデータセットは、オープンソースから高品質なデータを収集し、サイバーセキュリティ質問設計コンテストを組織することで構築された。 16個のSOTA LLMのベンチマーク結果はSecBenchのユーザビリティを示している。
論文参考訳（メタデータ） (2024-12-30T08:11:54Z)
CS-Eval: A Comprehensive Large Language Model Benchmark for CyberSecurity [25.07282324266835]
CS-Evalは、サイバーセキュリティにおける大規模言語モデル(LLM)のベンチマークである。学界から研究ホットスポットを合成し、産業から実用化する。高品質な質問を3つの認知レベル(知識、能力、応用)に分類する。
論文参考訳（メタデータ） (2024-11-25T09:54:42Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文参考訳（メタデータ） (2024-10-15T20:32:07Z)
CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions [0.2999888908665658]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)機能を持ち、様々なアプリケーションにまたがる汎用機能を提供する。しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。
論文参考訳（メタデータ） (2024-08-17T22:37:39Z)
The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums [0.0]
大規模言語モデル(LLM)は、サイバー犯罪フォーラムからサイバー脅威インテリジェンス(CTI)データを分析するために使用することができる。本研究では,OpenAI GPT-3.5-turboモデル[8]上に構築したLCMシステムの性能評価を行い,CTI情報を抽出する。
論文参考訳（メタデータ） (2024-08-06T09:15:25Z)
Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。 LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文参考訳（メタデータ） (2024-05-08T02:09:17Z)
When LLMs Meet Cybersecurity: A Systematic Literature Review [9.347716970758604]
大規模言語モデル(LLM)は、サイバーセキュリティを含む様々な分野に新しい道を開いた。この研究領域の包括的概要は欠如している。本研究は,LLMがサイバーセキュリティの実践を強化する上での広範な可能性を明らかにすることを目的としている。
論文参考訳（メタデータ） (2024-05-06T17:07:28Z)
Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文参考訳（メタデータ） (2024-03-27T17:48:55Z)
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。 Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文参考訳（メタデータ） (2024-03-05T18:59:35Z)
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文参考訳（メタデータ） (2023-11-14T13:24:19Z)
A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。既存の検出戦略とベンチマークの詳細な概要を提供する。また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文参考訳（メタデータ） (2023-10-24T09:10:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。