Fugu-MT 論文翻訳(概要): SECURE: Benchmarking Large Language Models for Cybersecurity

論文の概要: SECURE: Benchmarking Large Language Models for Cybersecurity

arxiv url: http://arxiv.org/abs/2405.20441v4
Date: Wed, 30 Oct 2024 14:29:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.071391
Title: SECURE: Benchmarking Large Language Models for Cybersecurity
Title（参考訳）: SECURE: サイバーセキュリティのための大規模言語モデルのベンチマーク
Authors: Dipkamal Bhusal, Md Tanvirul Alam, Le Nguyen, Ashim Mahara, Zachary Lightcap, Rodney Frazier, Romy Fieblinger, Grace Long Torales, Benjamin A. Blakely, Nidhi Rastogi,
Abstract要約: 大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
参考スコア（独自算出の注目度）: 0.6741087029030101
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated potential in cybersecurity applications but have also caused lower confidence due to problems like hallucinations and a lack of truthfulness. Existing benchmarks provide general evaluations but do not sufficiently address the practical and applied aspects of LLM performance in cybersecurity-specific tasks. To address this gap, we introduce the SECURE (Security Extraction, Understanding \& Reasoning Evaluation), a benchmark designed to assess LLMs performance in realistic cybersecurity scenarios. SECURE includes six datasets focussed on the Industrial Control System sector to evaluate knowledge extraction, understanding, and reasoning based on industry-standard sources. Our study evaluates seven state-of-the-art models on these tasks, providing insights into their strengths and weaknesses in cybersecurity contexts, and offer recommendations for improving LLMs reliability as cyber advisory tools.
Abstract（参考訳）: 大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。既存のベンチマークは、一般的な評価を提供するが、サイバーセキュリティ固有のタスクにおけるLLMのパフォーマンスの実践的および応用的な側面に十分対応していない。このギャップに対処するために、現実的なサイバーセキュリティシナリオにおいてLLMのパフォーマンスを評価するために設計されたSECURE(Security extract, Understanding \& Reasoning Evaluation)を導入する。 SECUREには、業界標準ソースに基づいた知識抽出、理解、推論を評価するために、産業制御システム分野に焦点を当てた6つのデータセットが含まれている。本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈における長所と短所についての洞察を提供し、サイバーアドバイザリーツールとしてLCMの信頼性を向上させるための推奨事項を提供する。

関連論文リスト

The Digital Cybersecurity Expert: How Far Have We Come? [49.89857422097055]
我々は,サイバーセキュリティの専門家が期待する345の知識ポイントに基づいた,きめ細かいサイバーセキュリティ評価フレームワークであるCSEBenchmarkを開発した。 CSEBenchmarkで12のポピュラーな大言語モデル(LLM)を評価し、最高のパフォーマンスモデルでさえ全体の精度は85.42%に過ぎなかった。各LSMにおける特定の知識ギャップを特定し,対処することにより,事前の誤り予測の修正において最大84%の改善が達成される。
論文参考訳（メタデータ） (2025-04-16T05:36:28Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
LLM Cyber Evaluations Don't Capture Real-World Risk [0.0]
大規模言語モデル(LLMs)は、サイバーセキュリティアプリケーションにおける進歩を誇示している。これらの能力によって引き起こされるリスクを評価するための現在の取り組みは、現実のインパクトを理解するという目標と不一致である、と我々は主張する。
論文参考訳（メタデータ） (2025-01-31T05:33:48Z)
ChatNVD: Advancing Cybersecurity Vulnerability Assessment with Large Language Models [0.46873264197900916]
本稿では,Large Language Models (LLMs) のソフトウェア脆弱性評価への応用について検討する。我々は,OpenAIによるGPT-4o mini,MetaによるLlama 3,GoogleによるGemini 1.5 Proの3つの著名なLCMを利用して,ChatNVDの3つの変種を開発した。それらの有効性を評価するために,一般的なセキュリティ脆弱性質問を含む包括的アンケートを用いて,これらのモデルの比較分析を行った。
論文参考訳（メタデータ） (2024-12-06T03:45:49Z)
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [94.13848736705575]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。 FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文参考訳（メタデータ） (2024-11-05T23:26:10Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [75.85283891591678]
人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。本研究では,LLM とビジョン言語モデル (VLM) を評価する総合的なフレームワークであるLab Safety Benchmark (LabSafety Bench) を提案する。
論文参考訳（メタデータ） (2024-10-18T05:21:05Z)
Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文参考訳（メタデータ） (2024-08-29T10:00:57Z)
CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence [0.7499722271664147]
CTIBenchは、CTIアプリケーションにおける大規模言語モデルの性能を評価するために設計されたベンチマークである。これらのタスクにおけるいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を提供する。
論文参考訳（メタデータ） (2024-06-11T16:42:02Z)
Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文参考訳（メタデータ） (2024-06-11T00:35:39Z)
Generative AI and Large Language Models for Cyber Security: All Insights You Need [0.06597195879147556]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。 GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文参考訳（メタデータ） (2024-05-21T13:02:27Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。 ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文参考訳（メタデータ） (2024-02-03T14:20:20Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文参考訳（メタデータ） (2023-12-07T22:07:54Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。