論文の概要: A Preliminary Study on Using Large Language Models in Software
Pentesting
- arxiv url: http://arxiv.org/abs/2401.17459v1
- Date: Tue, 30 Jan 2024 21:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:15:34.472366
- Title: A Preliminary Study on Using Large Language Models in Software
Pentesting
- Title(参考訳): ソフトウェアテストにおける大規模言語モデルの利用に関する予備的検討
- Authors: Kumar Shashwat, Francis Hahn, Xinming Ou, Dmitry Goldgof, Lawrence
Hall, Jay Ligatti, S. Raj Rajgopalan, Armin Ziaie Tabari
- Abstract要約: 大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
- 参考スコア(独自算出の注目度): 2.0551676463612636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) are perceived to offer promising potentials for
automating security tasks, such as those found in security operation centers
(SOCs). As a first step towards evaluating this perceived potential, we
investigate the use of LLMs in software pentesting, where the main task is to
automatically identify software security vulnerabilities in source code. We
hypothesize that an LLM-based AI agent can be improved over time for a specific
security task as human operators interact with it. Such improvement can be
made, as a first step, by engineering prompts fed to the LLM based on the
responses produced, to include relevant contexts and structures so that the
model provides more accurate results. Such engineering efforts become
sustainable if the prompts that are engineered to produce better results on
current tasks, also produce better results on future unknown tasks. To examine
this hypothesis, we utilize the OWASP Benchmark Project 1.2 which contains
2,740 hand-crafted source code test cases containing various types of
vulnerabilities. We divide the test cases into training and testing data, where
we engineer the prompts based on the training data (only), and evaluate the
final system on the testing data. We compare the AI agent's performance on the
testing data against the performance of the agent without the prompt
engineering. We also compare the AI agent's results against those from
SonarQube, a widely used static code analyzer for security testing. We built
and tested multiple versions of the AI agent using different off-the-shelf LLMs
-- Google's Gemini-pro, as well as OpenAI's GPT-3.5-Turbo and GPT-4-Turbo (with
both chat completion and assistant APIs). The results show that using LLMs is a
viable approach to build an AI agent for software pentesting that can improve
through repeated use and prompt engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)は、セキュリティ操作センタ(SOC)に見られるようなセキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
この可能性を評価するための第一歩として、ソースコードにおけるソフトウェアセキュリティの脆弱性を自動的に識別するソフトウェアペンテスティングにおけるLLMの使用について検討する。
LLMベースのAIエージェントは、人間のオペレーターがそれと対話する際に、特定のセキュリティタスクのために時間とともに改善できると仮定する。
このような改善は、生成した応答に基づいてLLMに送信されるエンジニアリングプロンプトによって、モデルがより正確な結果を提供するように、関連するコンテキストや構造を含めることができる。
このようなエンジニアリングの取り組みは、現在のタスクでより良い結果を出すように設計されたプロンプトが、将来の未知のタスクでより良い結果を生み出すと持続的になる。
この仮説を検証するために、様々な脆弱性を含む2,740の手作りソースコードテストケースを含むOWASP Benchmark Project 1.2を利用する。
テストケースをトレーニングデータとテストデータに分割し、トレーニングデータ(のみ)に基づいてプロンプトを設計し、テストデータの最終システムを評価する。
テストデータにおけるaiエージェントのパフォーマンスと,プロンプトエンジニアリングを使わずにエージェントのパフォーマンスを比較した。
また、セキュリティテストに広く使用されている静的コードアナライザであるSonarQubeのものと、AIエージェントの結果を比較します。
GoogleのGemini-proとOpenAIのGPT-3.5-TurboとGPT-4-Turbo(チャット補完とアシスタントAPIの両方)を使って、さまざまなバージョンのAIエージェントを構築し、テストしました。
その結果、llmsの使用はソフトウェアペンテスティングのためのaiエージェントを構築するための実行可能なアプローチであることが分かりました。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。
大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。
本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文 参考訳(メタデータ) (2024-12-31T02:06:46Z) - An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Automating REST API Postman Test Cases Using LLM [0.0]
本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。
この方法論は、テストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。
この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。
論文 参考訳(メタデータ) (2024-04-16T15:53:41Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。
特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。