論文の概要: Dynamic Risk Assessments for Offensive Cybersecurity Agents
- arxiv url: http://arxiv.org/abs/2505.18384v1
- Date: Fri, 23 May 2025 21:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.384757
- Title: Dynamic Risk Assessments for Offensive Cybersecurity Agents
- Title(参考訳): 攻撃型サイバーセキュリティエージェントの動的リスクアセスメント
- Authors: Boyi Wei, Benedikt Stroebl, Jiacen Xu, Joie Zhang, Zhou Li, Peter Henderson,
- Abstract要約: 我々は、敵が持つであろう様々な自由度を考慮して評価を行うべきだと論じる。
敵は、InterCode CTF上のエージェントのサイバーセキュリティ能力を、ベースラインと比較して40%以上改善できることを示す。
- 参考スコア(独自算出の注目度): 8.009741580969873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models are increasingly becoming better autonomous programmers, raising the prospect that they could also automate dangerous offensive cyber-operations. Current frontier model audits probe the cybersecurity risks of such agents, but most fail to account for the degrees of freedom available to adversaries in the real world. In particular, with strong verifiers and financial incentives, agents for offensive cybersecurity are amenable to iterative improvement by would-be adversaries. We argue that assessments should take into account an expanded threat model in the context of cybersecurity, emphasizing the varying degrees of freedom that an adversary may possess in stateful and non-stateful environments within a fixed compute budget. We show that even with a relatively small compute budget (8 H100 GPU Hours in our study), adversaries can improve an agent's cybersecurity capability on InterCode CTF by more than 40\% relative to the baseline -- without any external assistance. These results highlight the need to evaluate agents' cybersecurity risk in a dynamic manner, painting a more representative picture of risk.
- Abstract(参考訳): ファンデーションモデルは、より優れた自律型プログラマになりつつあり、危険なサイバー操作を自動化する可能性も高まっている。
現在のフロンティアモデル監査は、そのようなエージェントのサイバーセキュリティリスクを調査するが、ほとんどの場合、現実世界の敵が利用できる自由度を考慮できない。
特に、強力な検証と金銭的インセンティブによって、攻撃的なサイバーセキュリティのエージェントは、敵対者による反復的な改善を期待できる。
我々は、サイバーセキュリティの文脈における脅威モデルの拡張を考慮し、敵が固定された計算予算内でステートフルで非ステートフルな環境に持つ様々な自由度を強調するべきであると論じる。
比較的小さな計算予算(我々の調査では8H100 GPU時間)であっても、敵は、InterCode CTF上のエージェントのサイバーセキュリティ能力を、ベースラインに対して40倍以上改善することができる。
これらの結果は、エージェントのサイバーセキュリティリスクを動的に評価する必要性を強調し、より代表的なリスクの絵を描く。
関連論文リスト
- Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。
我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。
当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文 参考訳(メタデータ) (2025-04-28T08:41:12Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - Countering Autonomous Cyber Threats [40.00865970939829]
ファンデーションモデルは、サイバードメイン内で広く、特に二元的関心事を提示します。
近年の研究では、これらの先進的なモデルが攻撃的なサイバースペース操作を通知または独立に実行する可能性を示している。
この研究は、孤立したネットワークでマシンを妥協する能力について、最先端のいくつかのFMを評価し、そのようなAIによる攻撃を倒す防御メカニズムを調査する。
論文 参考訳(メタデータ) (2024-10-23T22:46:44Z) - The MESA Security Model 2.0: A Dynamic Framework for Mitigating Stealth Data Exfiltration [0.0]
ステルスデータ流出は、隠蔽侵入、拡張された検出不能、機密データの不正な拡散を特徴とする重要なサイバー脅威である。
以上の結果から,従来の防衛戦略はこれらの高度な脅威に対処するには不十分であることが判明した。
この複雑な風景をナビゲートする上で、潜在的な脅威を予測し、防衛を継続的に更新することが重要です。
論文 参考訳(メタデータ) (2024-05-17T16:14:45Z) - A Zero Trust Framework for Realization and Defense Against Generative AI
Attacks in Power Grid [62.91192307098067]
本稿では電力グリッドサプライチェーン(PGSC)のための新しいゼロ信頼フレームワークを提案する。
潜在的なGenAIによる攻撃ベクターの早期発見、テールリスクに基づく安定性の評価、そしてそのような脅威の緩和を容易にする。
実験の結果,ゼロ信頼フレームワークは攻撃ベクトル生成に95.7%の精度,95%安定PGSCに9.61%のリスク尺度,GenAIによる攻撃に対する防御に99%の信頼性が得られた。
論文 参考訳(メタデータ) (2024-03-11T02:47:21Z) - Mind the Gap: Securely modeling cyber risk based on security deviations
from a peer group [2.7910505923792646]
本稿では,特定の経済セクターにおいて,ピアに対するサイバー姿勢とサイバーリスクを推定する新たな枠組みを提案する。
我々は、組織とその仲間間の重み付けされたセキュリティギャップを表す、Defense Gap Indexと呼ばれる新しいトップライン変数を導入する。
このアプローチを,25の大企業から収集したデータを用いて,特定の分野に適用する。
論文 参考訳(メタデータ) (2024-02-06T17:22:45Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Defending against cybersecurity threats to the payments and banking
system [0.0]
サイバー犯罪の拡散は、銀行セクターの様々な利害関係者にとって大きな懸念である。
ソフトウェアシステムに対するサイバー攻撃のリスクを防止するには、サイバースペース内で動作しているエンティティを特定する必要がある。
本稿では,サイバー空間の資産を識別し,サイバー脅威を分類し,セキュリティ対策を提供し,タイプや機能を管理するためのセキュリティ対策をマップ化する,様々なアプローチについて検討する。
論文 参考訳(メタデータ) (2022-12-15T11:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。