Fugu-MT 論文翻訳(概要): SECURE: Benchmarking Large Language Models for Cybersecurity Advisory

論文の概要: SECURE: Benchmarking Large Language Models for Cybersecurity Advisory

arxiv url: http://arxiv.org/abs/2405.20441v2
Date: Wed, 11 Sep 2024 13:11:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 20:57:55.875975
Title: SECURE: Benchmarking Large Language Models for Cybersecurity Advisory
Title（参考訳）: SECURE: サイバーセキュリティアドバイザリのための大規模言語モデルのベンチマーク
Authors: Dipkamal Bhusal, Md Tanvirul Alam, Le Nguyen, Ashim Mahara, Zachary Lightcap, Rodney Frazier, Romy Fieblinger, Grace Long Torales, Nidhi Rastogi,
Abstract要約: 大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
参考スコア（独自算出の注目度）: 0.5804487044220691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated potential in cybersecurity applications but have also caused lower confidence due to problems like hallucinations and a lack of truthfulness. Existing benchmarks provide general evaluations but do not sufficiently address the practical and applied aspects of LLM performance in cybersecurity-specific tasks. To address this gap, we introduce the SECURE (Security Extraction, Understanding \& Reasoning Evaluation), a benchmark designed to assess LLMs performance in realistic cybersecurity scenarios. SECURE includes six datasets focussed on the Industrial Control System sector to evaluate knowledge extraction, understanding, and reasoning based on industry-standard sources. Our study evaluates seven state-of-the-art models on these tasks, providing insights into their strengths and weaknesses in cybersecurity contexts, and offer recommendations for improving LLMs reliability as cyber advisory tools.
Abstract（参考訳）: 大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。既存のベンチマークは、一般的な評価を提供するが、サイバーセキュリティ固有のタスクにおけるLLMのパフォーマンスの実践的および応用的な側面に十分対応していない。このギャップに対処するために、現実的なサイバーセキュリティシナリオにおいてLLMのパフォーマンスを評価するために設計されたSECURE(Security extract, Understanding \& Reasoning Evaluation)を導入する。 SECUREには、業界標準ソースに基づいた知識抽出、理解、推論を評価するために、産業制御システム分野に焦点を当てた6つのデータセットが含まれている。本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈における長所と短所についての洞察を提供し、サイバーアドバイザリーツールとしてLCMの信頼性を向上させるための推奨事項を提供する。

関連論文リスト

Measuring what Matters: Construct Validity in Large Language Model Benchmarks [103.53142193393931]
大規模言語モデル(LLM)を評価することは、その能力を評価し、デプロイ前に安全性や堅牢性の問題を特定するために重要である。自然言語処理と機械学習における主要なカンファレンスから445のベンチマークを体系的にレビューする。結果の妥当性を損なう現象,課題,評価指標に関連するパターンを見いだす。
論文参考訳（メタデータ） (2025-11-03T17:39:40Z)
Adapting Large Language Models to Emerging Cybersecurity using Retrieval Augmented Generation [3.058685580689604]
セキュリティアプリケーションは、サイバー脅威検出のための大規模言語モデル(LLM)にますます依存している。セキュリティの脅威は急速に進化するので、LLMは過去の出来事を思い出すだけでなく、新たな脆弱性や攻撃パターンにも適応する必要がある。本稿では,サイバーセキュリティデータのコンテキスト化と,知識保持と時間的推論におけるLCMの精度向上を目的としたRAGベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-31T00:59:53Z)
CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence [48.63397742510097]
サイバー脅威インテリジェンス(CTI)は現代のサイバーセキュリティの中心であり、進化する脅威を検出し緩和するための重要な洞察を提供する。大規模言語モデル(LLM)の自然言語理解と推論能力により、CTIに適用することへの関心が高まっている。異種マルチソースCTI上でLLM性能を評価するための最初のベンチマークであるCTIArenaを提案する。
論文参考訳（メタデータ） (2025-10-13T22:10:17Z)
CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning [1.3863707631653515]
サイバーディフェンダーは、セキュリティ警告、脅威情報信号、ビジネスコンテキストの変化に圧倒されている。既存の評価では、現実世界のディフェンダーに最も関係のあるシナリオを十分に評価していない。我々はCyberSecEval 4.0のオープンソースベンチマークスイートであるCyberSOCEvalを紹介した。
論文参考訳（メタデータ） (2025-09-24T14:33:07Z)
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。広範囲に展開したことにより、大きな安全上の懸念がもたらされた。 LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
The Digital Cybersecurity Expert: How Far Have We Come? [49.89857422097055]
我々は,サイバーセキュリティの専門家が期待する345の知識ポイントに基づいた,きめ細かいサイバーセキュリティ評価フレームワークであるCSEBenchmarkを開発した。 CSEBenchmarkで12のポピュラーな大言語モデル(LLM)を評価し、最高のパフォーマンスモデルでさえ全体の精度は85.42%に過ぎなかった。各LSMにおける特定の知識ギャップを特定し,対処することにより,事前の誤り予測の修正において最大84%の改善が達成される。
論文参考訳（メタデータ） (2025-04-16T05:36:28Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
LLM Cyber Evaluations Don't Capture Real-World Risk [0.0]
大規模言語モデル(LLMs)は、サイバーセキュリティアプリケーションにおける進歩を誇示している。これらの能力によって引き起こされるリスクを評価するための現在の取り組みは、現実のインパクトを理解するという目標と不一致である、と我々は主張する。
論文参考訳（メタデータ） (2025-01-31T05:33:48Z)
ChatNVD: Advancing Cybersecurity Vulnerability Assessment with Large Language Models [0.46873264197900916]
本稿では,Large Language Models (LLMs) のソフトウェア脆弱性評価への応用について検討する。我々は,OpenAIによるGPT-4o mini,MetaによるLlama 3,GoogleによるGemini 1.5 Proの3つの著名なLCMを利用して,ChatNVDの3つの変種を開発した。それらの有効性を評価するために,一般的なセキュリティ脆弱性質問を含む包括的アンケートを用いて,これらのモデルの比較分析を行った。
論文参考訳（メタデータ） (2024-12-06T03:45:49Z)
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [94.13848736705575]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。 FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文参考訳（メタデータ） (2024-11-05T23:26:10Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [75.85283891591678]
人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。本研究では,LLM とビジョン言語モデル (VLM) を評価する総合的なフレームワークであるLab Safety Benchmark (LabSafety Bench) を提案する。
論文参考訳（メタデータ） (2024-10-18T05:21:05Z)
Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文参考訳（メタデータ） (2024-08-29T10:00:57Z)
CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence [0.7499722271664147]
CTIBenchは、CTIアプリケーションにおける大規模言語モデルの性能を評価するために設計されたベンチマークである。これらのタスクにおけるいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を提供する。
論文参考訳（メタデータ） (2024-06-11T16:42:02Z)
Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文参考訳（メタデータ） (2024-06-11T00:35:39Z)
Generative AI and Large Language Models for Cyber Security: All Insights You Need [0.06597195879147556]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。 GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文参考訳（メタデータ） (2024-05-21T13:02:27Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。 ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文参考訳（メタデータ） (2024-02-03T14:20:20Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文参考訳（メタデータ） (2023-12-07T22:07:54Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。