論文の概要: AI Cyber Risk Benchmark: Automated Exploitation Capabilities
- arxiv url: http://arxiv.org/abs/2410.21939v2
- Date: Mon, 09 Dec 2024 15:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:04.895181
- Title: AI Cyber Risk Benchmark: Automated Exploitation Capabilities
- Title(参考訳): AIサイバーリスクベンチマーク: 自動爆発能力
- Authors: Dan Ristea, Vasilios Mavroudis, Chris Hicks,
- Abstract要約: 自動ソフトウェアエクスプロイトにおけるAIモデルの能力とリスクを評価するための新しいベンチマークを導入する。
OpenAIのo1-previewやo1-mini、AnthropicのClaude-3.5-sonnet-20241022、Claude-3.5-sonnet-20240620など、主要な言語モデルの評価を行った。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License:
- Abstract: We introduce a new benchmark for assessing AI models' capabilities and risks in automated software exploitation, focusing on their ability to detect and exploit vulnerabilities in real-world software systems. Using DARPA's AI Cyber Challenge (AIxCC) framework and the Nginx challenge project, a deliberately modified version of the widely used Nginx web server, we evaluate several leading language models, including OpenAI's o1-preview and o1-mini, Anthropic's Claude-3.5-sonnet-20241022 and Claude-3.5-sonnet-20240620, Google DeepMind's Gemini-1.5-pro, and OpenAI's earlier GPT-4o model. Our findings reveal that these models vary significantly in their success rates and efficiency, with o1-preview achieving the highest success rate of 64.71 percent and o1-mini and Claude-3.5-sonnet-20241022 providing cost-effective but less successful alternatives. This benchmark establishes a foundation for systematically evaluating the AI cyber risk posed by automated exploitation tools.
- Abstract(参考訳): 我々は、AIモデルの能力と自動ソフトウェアエクスプロイトのリスクを評価するための新しいベンチマークを導入し、現実世界のソフトウェアシステムの脆弱性を検出し、悪用する能力に焦点を当てた。
DARPAのAI Cyber Challenge(AIxCC)フレームワークと、広く使用されているNginx Webサーバの意図的に修正されたNginxチャレンジプロジェクトを使用して、OpenAIのo1-previewとo1-mini、AnthropicのClaude-3.5-sonnet-20241022、Claude-3.5-sonnet-20240620、Google DeepMindのGemini-1.5-pro、OpenAIの初期のGPT-4oモデルなど、主要な言語モデルを評価した。
以上の結果から,O1-previewは64.71%,O1-mini,Claude-3.5-sonnet-20241022は費用対効果の低い代替品であることがわかった。
このベンチマークは、自動エクスプロイトツールによって引き起こされるAIサイバーリスクを体系的に評価するための基盤を確立する。
関連論文リスト
- o3-mini vs DeepSeek-R1: Which One is Safer? [6.105030666773317]
DeepSeek-R1はAI産業の転換点となっている。
OpenAIのo3-miniモデルは、パフォーマンス、安全性、コストの点で高い標準を設定することが期待されている。
私たちは最近リリースされたASTRALという自動安全テストツールを使用しています。
論文 参考訳(メタデータ) (2025-01-30T15:45:56Z) - Fundamental Risks in the Current Deployment of General-Purpose AI Models: What Have We (Not) Learnt From Cybersecurity? [60.629883024152576]
大規模言語モデル(LLM)は、幅広いユースケースで急速にデプロイされている。
OpenAIs Alteraは、自律性の向上、データアクセス、実行機能の一例に過ぎない。
これらの方法には、さまざまなサイバーセキュリティ上の課題が伴う。
論文 参考訳(メタデータ) (2024-12-19T14:44:41Z) - Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements [1.4433703131122861]
大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野に可能性を示している。
現在、包括的で、オープンで、エンドツーエンドの自動浸透テストベンチマークはありません。
本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案する。
論文 参考訳(メタデータ) (2024-10-22T16:18:41Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - Software Metadata Classification based on Generative Artificial
Intelligence [0.0]
本稿では、生成人工知能(AI)を用いたバイナリコードコメント品質分類モデルの性能向上のための新しいアプローチを提案する。
OpenAI APIを活用することで、新たに生成した1239のコード補完ペアからなるデータセットを、“Useful”あるいは“Not Useful”とラベル付けした。
その結果,ソフトウェア開発分野や品質保証分野の幅広い文脈における適用性を示すとともに,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-14T07:38:16Z) - When Authentication Is Not Enough: On the Security of Behavioral-Based Driver Authentication Systems [53.2306792009435]
我々はランダムフォレストとリカレントニューラルネットワークアーキテクチャに基づく2つの軽量ドライバ認証システムを開発した。
我々は,SMARTCANとGANCANという2つの新しいエスケープアタックを開発することで,これらのシステムに対する攻撃を最初に提案する。
コントリビューションを通じて、これらのシステムを安全に採用する実践者を支援し、車の盗難を軽減し、ドライバーのセキュリティを高める。
論文 参考訳(メタデータ) (2023-06-09T14:33:26Z) - Vulnerability Detection Using Two-Stage Deep Learning Models [0.0]
C/C++ソースコードの脆弱性検出には,2つのディープラーニングモデルが提案されている。
最初のステージはCNNで、ソースコードに脆弱性があるかどうかを検出する。
2番目のステージは、この脆弱性を50種類の脆弱性のクラスに分類するCNN-LTSMである。
論文 参考訳(メタデータ) (2023-05-08T22:12:34Z) - Publishing Efficient On-device Models Increases Adversarial
Vulnerability [58.6975494957865]
本稿では,大規模モデルのオンデバイス版を公開する際のセキュリティ上の考慮事項について検討する。
まず、敵がデバイス上のモデルを悪用し、大きなモデルを攻撃しやすくすることを示す。
次に、フルスケールと効率的なモデルとの類似性が増加するにつれて、脆弱性が増加することを示す。
論文 参考訳(メタデータ) (2022-12-28T05:05:58Z) - Insider Detection using Deep Autoencoder and Variational Autoencoder
Neural Networks [2.5234156040689237]
インサイダー攻撃は、企業、企業、そして重要なインフラにとって最も困難なサイバーセキュリティ問題の一つだ。
本稿では,ディープラーニングアルゴリズムのAutoencoderと変分オートエンコーダのDeepを用いてこの問題に対処することを目的とする。
特に、人間の介入なしに、内部の脅威を自動的に防ぐためにこれらのアルゴリズムを適用することの有用性について検討する。
論文 参考訳(メタデータ) (2021-09-06T16:08:51Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。