論文の概要: SECURE: Benchmarking Large Language Models for Cybersecurity Advisory
- arxiv url: http://arxiv.org/abs/2405.20441v2
- Date: Wed, 11 Sep 2024 13:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:57:55.875975
- Title: SECURE: Benchmarking Large Language Models for Cybersecurity Advisory
- Title(参考訳): SECURE: サイバーセキュリティアドバイザリのための大規模言語モデルのベンチマーク
- Authors: Dipkamal Bhusal, Md Tanvirul Alam, Le Nguyen, Ashim Mahara, Zachary Lightcap, Rodney Frazier, Romy Fieblinger, Grace Long Torales, Nidhi Rastogi,
- Abstract要約: 大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 0.5804487044220691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated potential in cybersecurity applications but have also caused lower confidence due to problems like hallucinations and a lack of truthfulness. Existing benchmarks provide general evaluations but do not sufficiently address the practical and applied aspects of LLM performance in cybersecurity-specific tasks. To address this gap, we introduce the SECURE (Security Extraction, Understanding \& Reasoning Evaluation), a benchmark designed to assess LLMs performance in realistic cybersecurity scenarios. SECURE includes six datasets focussed on the Industrial Control System sector to evaluate knowledge extraction, understanding, and reasoning based on industry-standard sources. Our study evaluates seven state-of-the-art models on these tasks, providing insights into their strengths and weaknesses in cybersecurity contexts, and offer recommendations for improving LLMs reliability as cyber advisory tools.
- Abstract(参考訳): 大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
既存のベンチマークは、一般的な評価を提供するが、サイバーセキュリティ固有のタスクにおけるLLMのパフォーマンスの実践的および応用的な側面に十分対応していない。
このギャップに対処するために、現実的なサイバーセキュリティシナリオにおいてLLMのパフォーマンスを評価するために設計されたSECURE(Security extract, Understanding \& Reasoning Evaluation)を導入する。
SECUREには、業界標準ソースに基づいた知識抽出、理解、推論を評価するために、産業制御システム分野に焦点を当てた6つのデータセットが含まれている。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈における長所と短所についての洞察を提供し、サイバーアドバイザリーツールとしてLCMの信頼性を向上させるための推奨事項を提供する。
関連論文リスト
- CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence [0.7499722271664147]
CTIBenchは、CTIアプリケーションにおける大規模言語モデルの性能を評価するために設計されたベンチマークである。
これらのタスクにおけるいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-11T16:42:02Z) - Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。
既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。
シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文 参考訳(メタデータ) (2024-06-11T00:35:39Z) - Generative AI and Large Language Models for Cyber Security: All Insights You Need [0.06597195879147556]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。
ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。
GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文 参考訳(メタデータ) (2024-05-21T13:02:27Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Large Language Models in Cybersecurity: State-of-the-Art [4.990712773805833]
大規模言語モデル(LLM)の台頭は、私たちの知性の理解に革命をもたらした。
本研究は, サイバーセキュリティの領域におけるLLMの防衛的, 敵的応用の徹底的な評価を, 既存の文献を考察した。
論文 参考訳(メタデータ) (2024-01-30T16:55:25Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。
CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文 参考訳(メタデータ) (2023-12-07T22:07:54Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。