論文の概要: CS-Eval: A Comprehensive Large Language Model Benchmark for CyberSecurity
- arxiv url: http://arxiv.org/abs/2411.16239v2
- Date: Thu, 26 Dec 2024 04:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:20:54.161856
- Title: CS-Eval: A Comprehensive Large Language Model Benchmark for CyberSecurity
- Title(参考訳): CS-Eval:サイバーセキュリティのための総合的な大規模言語モデルベンチマーク
- Authors: Zhengmin Yu, Jiutian Zeng, Siyi Chen, Wenhan Xu, Dandan Xu, Xiangyu Liu, Zonghao Ying, Nan Wang, Yuan Zhang, Min Yang,
- Abstract要約: CS-Evalは、サイバーセキュリティにおける大規模言語モデル(LLM)のベンチマークである。
学界から研究ホットスポットを合成し、産業から実用化する。
高品質な質問を3つの認知レベル(知識、能力、応用)に分類する。
- 参考スコア(独自算出の注目度): 25.07282324266835
- License:
- Abstract: Over the past year, there has been a notable rise in the use of large language models (LLMs) for academic research and industrial practices within the cybersecurity field. However, it remains a lack of comprehensive and publicly accessible benchmarks to evaluate the performance of LLMs on cybersecurity tasks. To address this gap, we introduce CS-Eval, a publicly accessible, comprehensive and bilingual LLM benchmark specifically designed for cybersecurity. CS-Eval synthesizes the research hotspots from academia and practical applications from industry, curating a diverse set of high-quality questions across 42 categories within cybersecurity, systematically organized into three cognitive levels: knowledge, ability, and application. Through an extensive evaluation of a wide range of LLMs using CS-Eval, we have uncovered valuable insights. For instance, while GPT-4 generally excels overall, other models may outperform it in certain specific subcategories. Additionally, by conducting evaluations over several months, we observed significant improvements in many LLMs' abilities to solve cybersecurity tasks. The benchmarks are now publicly available at https://github.com/CS-EVAL/CS-Eval.
- Abstract(参考訳): 過去1年間に、サイバーセキュリティ分野における学術研究や産業実践に大規模言語モデル(LLM)を使用することが顕著に増加した。
しかし、サイバーセキュリティタスクにおけるLLMのパフォーマンスを評価するために、包括的で一般にアクセス可能なベンチマークが不足している。
このギャップに対処するため、CS-Evalは、サイバーセキュリティに特化した、広くアクセス可能で包括的でバイリンガルなLLMベンチマークである。
CS-Evalは、学界からの研究ホットスポットと産業からの実践的応用を合成し、サイバーセキュリティの42のカテゴリにまたがるさまざまな高品質な質問を、知識、能力、応用の3つの認知レベルに体系的に分類する。
CS-Eval を用いた広範囲な LLM の評価を通じて,我々は貴重な知見を明らかにした。
例えば、GPT-4は全体的に優れているが、他のモデルでは特定のサブカテゴリよりも優れている。
さらに、数ヶ月にわたって評価を行うことで、サイバーセキュリティの課題を解決する多くのLCMの能力に大幅な改善が見られた。
ベンチマークはhttps://github.com/CS-EVAL/CS-Eval.comで公開されている。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions [0.2999888908665658]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)機能を持ち、様々なアプリケーションにまたがる汎用機能を提供する。
しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。
本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。
論文 参考訳(メタデータ) (2024-08-17T22:37:39Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence [0.7499722271664147]
CTIBenchは、CTIアプリケーションにおける大規模言語モデルの性能を評価するために設計されたベンチマークである。
これらのタスクにおけるいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-11T16:42:02Z) - SECURE: Benchmarking Large Language Models for Cybersecurity [0.6741087029030101]
大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-30T19:35:06Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - SecQA: A Concise Question-Answering Dataset for Evaluating Large
Language Models in Computer Security [0.0]
本稿では,コンピュータセキュリティ分野におけるLarge Language Models(LLM)の性能評価を目的とした,新しいデータセットSecQAを紹介する。
複雑さが増大する2つのバージョンを含むSecQAの構造と意図を詳述し、様々な難易度で簡潔な評価を行う。
GPT-3.5-Turbo, GPT-4, Llama-2, Vicuna, Mistral, Zephyrの各モデルにおいて,0ショットと5ショットの学習設定を用いて,優れたLCMの評価を行った。
論文 参考訳(メタデータ) (2023-12-26T00:59:30Z) - Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。
CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文 参考訳(メタデータ) (2023-12-07T22:07:54Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。