論文の概要: ACSE-Eval: Can LLMs threat model real-world cloud infrastructure?
- arxiv url: http://arxiv.org/abs/2505.11565v1
- Date: Fri, 16 May 2025 08:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.706347
- Title: ACSE-Eval: Can LLMs threat model real-world cloud infrastructure?
- Title(参考訳): ACSE-Eval: LLMは現実世界のクラウドインフラを脅かすことができるか?
- Authors: Sarthak Munshi, Swapnil Pathak, Sonam Ghatode, Thenuga Priyadarshini, Dhivya Chandramouleeswaran, Ashutosh Rana,
- Abstract要約: 本稿では,大規模言語モデルを評価するための新しいデータセットであるAWS Cloud Security Engineering Evalを紹介する。
ACSE-Evalには、100のプロダクショングレードのAWSデプロイメントシナリオが含まれており、それぞれが詳細なアーキテクチャ仕様を備えている。
本データセットは,LLMのセキュリティリスクを特定し,攻撃ベクトルを分析し,緩和戦略を提案するためのシステム評価を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Large Language Models have shown promise in cybersecurity applications, their effectiveness in identifying security threats within cloud deployments remains unexplored. This paper introduces AWS Cloud Security Engineering Eval, a novel dataset for evaluating LLMs cloud security threat modeling capabilities. ACSE-Eval contains 100 production grade AWS deployment scenarios, each featuring detailed architectural specifications, Infrastructure as Code implementations, documented security vulnerabilities, and associated threat modeling parameters. Our dataset enables systemic assessment of LLMs abilities to identify security risks, analyze attack vectors, and propose mitigation strategies in cloud environments. Our evaluations on ACSE-Eval demonstrate that GPT 4.1 and Gemini 2.5 Pro excel at threat identification, with Gemini 2.5 Pro performing optimally in 0-shot scenarios and GPT 4.1 showing superior results in few-shot settings. While GPT 4.1 maintains a slight overall performance advantage, Claude 3.7 Sonnet generates the most semantically sophisticated threat models but struggles with threat categorization and generalization. To promote reproducibility and advance research in automated cybersecurity threat analysis, we open-source our dataset, evaluation metrics, and methodologies.
- Abstract(参考訳): 大規模言語モデルはサイバーセキュリティアプリケーションにおいて有望であることを示しているが、クラウドデプロイメント内のセキュリティ脅威を識別する彼らの効果は、まだ探索されていない。
この記事では、LLMのクラウドセキュリティ脅威モデリング機能を評価するための、新しいデータセットであるAWS Cloud Security Engineering Evalを紹介する。
ACSE-Evalには100のプロダクショングレードのAWSデプロイメントシナリオが含まれており、それぞれが詳細なアーキテクチャ仕様、インフラストラクチャ・アズ・コードの実装、ドキュメント化されたセキュリティ脆弱性、関連する脅威モデリングパラメータを備えている。
本データセットは,LLMのセキュリティリスクを特定し,攻撃ベクトルを分析し,クラウド環境における緩和戦略を提案するためのシステム評価を可能にする。
ACSE-Eval を用いた評価では,GPT 4.1 と Gemini 2.5 Pro は脅威識別に優れ,Gemini 2.5 Pro は0ショットシナリオで最適に動作し,GPT 4.1 は数ショット設定で優れた結果を示した。
GPT 4.1は性能上の優位性を維持しているが、Claude 3.7 Sonnetはセマンティックに洗練された脅威モデルを生成するが、脅威分類と一般化に苦戦している。
自動サイバーセキュリティ脅威分析における再現性の向上と研究の進展を目的として,我々のデータセット,評価指標,方法論をオープンソース化した。
関連論文リスト
- LLM-Assisted Proactive Threat Intelligence for Automated Reasoning [2.0427650128177]
本研究は、リアルタイムサイバーセキュリティ脅威の検出と応答を強化する新しいアプローチを提案する。
我々は,大規模言語モデル (LLM) とレトリーバル拡張生成システム (RAG) を連続的な脅威知能フィードに統合する。
論文 参考訳(メタデータ) (2025-04-01T05:19:33Z) - strideSEA: A STRIDE-centric Security Evaluation Approach [1.996354642790599]
strideSEAはSTRIDEを中央分類体系として統合し、脅威モデリング、攻撃シナリオ分析、リスク分析、対策レコメンデーションのセキュリティ活動に統合する。
strideSEAの応用は、実世界のオンライン免疫システムケーススタディで実証されている。
論文 参考訳(メタデータ) (2025-03-24T18:00:17Z) - A Survey of Model Extraction Attacks and Defenses in Distributed Computing Environments [55.60375624503877]
モデル抽出攻撃(MEA)は、敵がモデルを盗み、知的財産と訓練データを公開することによって、現代の機械学習システムを脅かす。
この調査は、クラウド、エッジ、フェデレーションのユニークな特性がどのように攻撃ベクトルや防御要件を形作るのかを、緊急に理解する必要に起因している。
本研究は, 自動運転車, 医療, 金融サービスといった重要な分野において, 環境要因がセキュリティ戦略にどう影響するかを実証し, 攻撃手法と防衛機構の進化を系統的に検討する。
論文 参考訳(メタデータ) (2025-02-22T03:46:50Z) - Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - Generative AI in Cybersecurity: A Comprehensive Review of LLM Applications and Vulnerabilities [1.0974825157329373]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。
ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。
GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文 参考訳(メタデータ) (2024-05-21T13:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。