論文の概要: SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity
- arxiv url: http://arxiv.org/abs/2412.20787v3
- Date: Mon, 06 Jan 2025 07:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:03:48.713688
- Title: SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity
- Title(参考訳): SecBench: サイバーセキュリティにおけるLLMのための総合的な多次元ベンチマークデータセット
- Authors: Pengfei Jing, Mengyun Tang, Xiaorong Shi, Xing Zheng, Sen Nie, Shi Wu, Yong Yang, Xiapu Luo,
- Abstract要約: SecBenchは、サイバーセキュリティドメインの大規模言語モデル(LLM)を評価するために設計されたベンチマークデータセットである。
このデータセットは、オープンソースから高品質なデータを収集し、サイバーセキュリティ質問設計コンテストを組織することで構築された。
16個のSOTA LLMのベンチマーク結果はSecBenchのユーザビリティを示している。
- 参考スコア(独自算出の注目度): 23.32017147274093
- License:
- Abstract: Evaluating Large Language Models (LLMs) is crucial for understanding their capabilities and limitations across various applications, including natural language processing and code generation. Existing benchmarks like MMLU, C-Eval, and HumanEval assess general LLM performance but lack focus on specific expert domains such as cybersecurity. Previous attempts to create cybersecurity datasets have faced limitations, including insufficient data volume and a reliance on multiple-choice questions (MCQs). To address these gaps, we propose SecBench, a multi-dimensional benchmarking dataset designed to evaluate LLMs in the cybersecurity domain. SecBench includes questions in various formats (MCQs and short-answer questions (SAQs)), at different capability levels (Knowledge Retention and Logical Reasoning), in multiple languages (Chinese and English), and across various sub-domains. The dataset was constructed by collecting high-quality data from open sources and organizing a Cybersecurity Question Design Contest, resulting in 44,823 MCQs and 3,087 SAQs. Particularly, we used the powerful while cost-effective LLMs to (1). label the data and (2). constructing a grading agent for automatic evaluation of SAQs. Benchmarking results on 16 SOTA LLMs demonstrate the usability of SecBench, which is arguably the largest and most comprehensive benchmark dataset for LLMs in cybersecurity. More information about SecBench can be found at our website, and the dataset can be accessed via the artifact link.
- Abstract(参考訳): 大規模言語モデル(LLM)を評価することは、自然言語処理やコード生成など、さまざまなアプリケーションにおいて、その能力と制限を理解する上で不可欠である。
MMLU、C-Eval、HumanEvalといった既存のベンチマークは、一般的なLLMのパフォーマンスを評価するが、サイバーセキュリティのような特定の専門家ドメインに重点を置いていない。
これまでのサイバーセキュリティデータセット作成の試みでは、データボリュームの不足や、マルチチョイス質問(MCQ)への依存など、制限に直面していた。
これらのギャップに対処するために、サイバーセキュリティ領域におけるLSMを評価するために設計された多次元ベンチマークデータセットであるSecBenchを提案する。
SecBenchには、様々なフォーマット(MCQと短問合せ質問(SAQ))、さまざまな能力レベル(知識保持と論理推論)、複数の言語(中国語と英語)、そして様々なサブドメインにわたる質問が含まれている。
このデータセットは、オープンソースから高品質なデータを収集し、Cybersecurity Question Design Contestを組織し、44,823のMCQと3,087のSAQを作成した。
特に,費用対効果の強いLCMを(1)に使用した。
data と (2)
SAQの自動評価のためのグレーディングエージェントの構築。
16のSOTA LLMのベンチマーク結果は、サイバーセキュリティにおけるLLMの最大かつ最も包括的なベンチマークデータセットであるSecBenchのユーザビリティを示している。
SecBenchの詳細はWebサイトにある。データセットはアーティファクトリンクを通じてアクセスすることができる。
関連論文リスト
- CS-Eval: A Comprehensive Large Language Model Benchmark for CyberSecurity [25.07282324266835]
CS-Evalは、サイバーセキュリティにおける大規模言語モデル(LLM)のベンチマークである。
学界から研究ホットスポットを合成し、産業から実用化する。
高品質な質問を3つの認知レベル(知識、能力、応用)に分類する。
論文 参考訳(メタデータ) (2024-11-25T09:54:42Z) - Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - NYU CTF Dataset: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security [28.125179435861316]
大規模言語モデル(LLM)は、さまざまなドメインにデプロイされているが、Capture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。
我々は、スケーラブルでオープンソースのベンチマークデータベースを作成することで、CTFの課題を解決する上で、LCMを評価する新しい手法を開発した。
このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。
論文 参考訳(メタデータ) (2024-06-08T22:21:42Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。
実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文 参考訳(メタデータ) (2024-02-19T08:12:30Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - SecQA: A Concise Question-Answering Dataset for Evaluating Large
Language Models in Computer Security [0.0]
本稿では,コンピュータセキュリティ分野におけるLarge Language Models(LLM)の性能評価を目的とした,新しいデータセットSecQAを紹介する。
複雑さが増大する2つのバージョンを含むSecQAの構造と意図を詳述し、様々な難易度で簡潔な評価を行う。
GPT-3.5-Turbo, GPT-4, Llama-2, Vicuna, Mistral, Zephyrの各モデルにおいて,0ショットと5ショットの学習設定を用いて,優れたLCMの評価を行った。
論文 参考訳(メタデータ) (2023-12-26T00:59:30Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。