論文の概要: Benchmarking OpenAI o1 in Cyber Security
- arxiv url: http://arxiv.org/abs/2410.21939v1
- Date: Tue, 29 Oct 2024 10:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:15.997062
- Title: Benchmarking OpenAI o1 in Cyber Security
- Title(参考訳): サイバーセキュリティにおけるOpenAI o1のベンチマーク
- Authors: Dan Ristea, Vasilios Mavroudis, Chris Hicks,
- Abstract要約: 我々はOpenAIのo1-previewモデルとo1-miniモデルを評価し、その性能を以前のGPT-4oモデルと比較した。
我々の評価は、既知の衛生装置を起動する構造化インプットを生成することで、現実世界のソフトウェアにおける脆弱性を検出する能力に焦点を当てている。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License:
- Abstract: We evaluate OpenAI's o1-preview and o1-mini models, benchmarking their performance against the earlier GPT-4o model. Our evaluation focuses on their ability to detect vulnerabilities in real-world software by generating structured inputs that trigger known sanitizers. Using DARPA's AI Cyber Challenge (AIxCC) framework and the Nginx challenge project--a deliberately modified version of the widely-used Nginx web server--we create a well-defined yet complex environment for testing LLMs on automated vulnerability detection (AVD) tasks. Our results show that the o1-preview model significantly outperforms GPT-4o in both success rate and efficiency, especially in more complex scenarios.
- Abstract(参考訳): 我々はOpenAIのo1-previewモデルとo1-miniモデルを評価し、その性能を以前のGPT-4oモデルと比較した。
我々の評価は、既知の衛生装置を起動する構造化インプットを生成することで、現実世界のソフトウェアにおける脆弱性を検出する能力に焦点を当てている。
DARPAのAI Cyber Challenge(AIxCC)フレームワークと、広く使用されているNginx Webサーバの意図的に修正されたバージョンであるNginx Challengeを使って、自動脆弱性検出(AVD)タスク上でLLMをテストするための、明確に定義された複雑な環境を構築しました。
以上の結果から,o1-previewモデルの方がGPT-4oよりも成功率と効率,特に複雑なシナリオにおいて優れていたことが示唆された。
関連論文リスト
- o3-mini vs DeepSeek-R1: Which One is Safer? [6.105030666773317]
DeepSeek-R1はAI産業の転換点となっている。
OpenAIのo3-miniモデルは、パフォーマンス、安全性、コストの点で高い標準を設定することが期待されている。
私たちは最近リリースされたASTRALという自動安全テストツールを使用しています。
論文 参考訳(メタデータ) (2025-01-30T15:45:56Z) - Fundamental Risks in the Current Deployment of General-Purpose AI Models: What Have We (Not) Learnt From Cybersecurity? [60.629883024152576]
大規模言語モデル(LLM)は、幅広いユースケースで急速にデプロイされている。
OpenAIs Alteraは、自律性の向上、データアクセス、実行機能の一例に過ぎない。
これらの方法には、さまざまなサイバーセキュリティ上の課題が伴う。
論文 参考訳(メタデータ) (2024-12-19T14:44:41Z) - Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements [1.4433703131122861]
大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野に可能性を示している。
現在、包括的で、オープンで、エンドツーエンドの自動浸透テストベンチマークはありません。
本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案する。
論文 参考訳(メタデータ) (2024-10-22T16:18:41Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - Software Metadata Classification based on Generative Artificial
Intelligence [0.0]
本稿では、生成人工知能(AI)を用いたバイナリコードコメント品質分類モデルの性能向上のための新しいアプローチを提案する。
OpenAI APIを活用することで、新たに生成した1239のコード補完ペアからなるデータセットを、“Useful”あるいは“Not Useful”とラベル付けした。
その結果,ソフトウェア開発分野や品質保証分野の幅広い文脈における適用性を示すとともに,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-14T07:38:16Z) - When Authentication Is Not Enough: On the Security of Behavioral-Based Driver Authentication Systems [53.2306792009435]
我々はランダムフォレストとリカレントニューラルネットワークアーキテクチャに基づく2つの軽量ドライバ認証システムを開発した。
我々は,SMARTCANとGANCANという2つの新しいエスケープアタックを開発することで,これらのシステムに対する攻撃を最初に提案する。
コントリビューションを通じて、これらのシステムを安全に採用する実践者を支援し、車の盗難を軽減し、ドライバーのセキュリティを高める。
論文 参考訳(メタデータ) (2023-06-09T14:33:26Z) - Vulnerability Detection Using Two-Stage Deep Learning Models [0.0]
C/C++ソースコードの脆弱性検出には,2つのディープラーニングモデルが提案されている。
最初のステージはCNNで、ソースコードに脆弱性があるかどうかを検出する。
2番目のステージは、この脆弱性を50種類の脆弱性のクラスに分類するCNN-LTSMである。
論文 参考訳(メタデータ) (2023-05-08T22:12:34Z) - Publishing Efficient On-device Models Increases Adversarial
Vulnerability [58.6975494957865]
本稿では,大規模モデルのオンデバイス版を公開する際のセキュリティ上の考慮事項について検討する。
まず、敵がデバイス上のモデルを悪用し、大きなモデルを攻撃しやすくすることを示す。
次に、フルスケールと効率的なモデルとの類似性が増加するにつれて、脆弱性が増加することを示す。
論文 参考訳(メタデータ) (2022-12-28T05:05:58Z) - Insider Detection using Deep Autoencoder and Variational Autoencoder
Neural Networks [2.5234156040689237]
インサイダー攻撃は、企業、企業、そして重要なインフラにとって最も困難なサイバーセキュリティ問題の一つだ。
本稿では,ディープラーニングアルゴリズムのAutoencoderと変分オートエンコーダのDeepを用いてこの問題に対処することを目的とする。
特に、人間の介入なしに、内部の脅威を自動的に防ぐためにこれらのアルゴリズムを適用することの有用性について検討する。
論文 参考訳(メタデータ) (2021-09-06T16:08:51Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。