論文の概要: A Preliminary Study on Using Large Language Models in Software
Pentesting
- arxiv url: http://arxiv.org/abs/2401.17459v1
- Date: Tue, 30 Jan 2024 21:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:15:34.472366
- Title: A Preliminary Study on Using Large Language Models in Software
Pentesting
- Title(参考訳): ソフトウェアテストにおける大規模言語モデルの利用に関する予備的検討
- Authors: Kumar Shashwat, Francis Hahn, Xinming Ou, Dmitry Goldgof, Lawrence
Hall, Jay Ligatti, S. Raj Rajgopalan, Armin Ziaie Tabari
- Abstract要約: 大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
- 参考スコア(独自算出の注目度): 2.0551676463612636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) are perceived to offer promising potentials for
automating security tasks, such as those found in security operation centers
(SOCs). As a first step towards evaluating this perceived potential, we
investigate the use of LLMs in software pentesting, where the main task is to
automatically identify software security vulnerabilities in source code. We
hypothesize that an LLM-based AI agent can be improved over time for a specific
security task as human operators interact with it. Such improvement can be
made, as a first step, by engineering prompts fed to the LLM based on the
responses produced, to include relevant contexts and structures so that the
model provides more accurate results. Such engineering efforts become
sustainable if the prompts that are engineered to produce better results on
current tasks, also produce better results on future unknown tasks. To examine
this hypothesis, we utilize the OWASP Benchmark Project 1.2 which contains
2,740 hand-crafted source code test cases containing various types of
vulnerabilities. We divide the test cases into training and testing data, where
we engineer the prompts based on the training data (only), and evaluate the
final system on the testing data. We compare the AI agent's performance on the
testing data against the performance of the agent without the prompt
engineering. We also compare the AI agent's results against those from
SonarQube, a widely used static code analyzer for security testing. We built
and tested multiple versions of the AI agent using different off-the-shelf LLMs
-- Google's Gemini-pro, as well as OpenAI's GPT-3.5-Turbo and GPT-4-Turbo (with
both chat completion and assistant APIs). The results show that using LLMs is a
viable approach to build an AI agent for software pentesting that can improve
through repeated use and prompt engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)は、セキュリティ操作センタ(SOC)に見られるようなセキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
この可能性を評価するための第一歩として、ソースコードにおけるソフトウェアセキュリティの脆弱性を自動的に識別するソフトウェアペンテスティングにおけるLLMの使用について検討する。
LLMベースのAIエージェントは、人間のオペレーターがそれと対話する際に、特定のセキュリティタスクのために時間とともに改善できると仮定する。
このような改善は、生成した応答に基づいてLLMに送信されるエンジニアリングプロンプトによって、モデルがより正確な結果を提供するように、関連するコンテキストや構造を含めることができる。
このようなエンジニアリングの取り組みは、現在のタスクでより良い結果を出すように設計されたプロンプトが、将来の未知のタスクでより良い結果を生み出すと持続的になる。
この仮説を検証するために、様々な脆弱性を含む2,740の手作りソースコードテストケースを含むOWASP Benchmark Project 1.2を利用する。
テストケースをトレーニングデータとテストデータに分割し、トレーニングデータ(のみ)に基づいてプロンプトを設計し、テストデータの最終システムを評価する。
テストデータにおけるaiエージェントのパフォーマンスと,プロンプトエンジニアリングを使わずにエージェントのパフォーマンスを比較した。
また、セキュリティテストに広く使用されている静的コードアナライザであるSonarQubeのものと、AIエージェントの結果を比較します。
GoogleのGemini-proとOpenAIのGPT-3.5-TurboとGPT-4-Turbo(チャット補完とアシスタントAPIの両方)を使って、さまざまなバージョンのAIエージェントを構築し、テストしました。
その結果、llmsの使用はソフトウェアペンテスティングのためのaiエージェントを構築するための実行可能なアプローチであることが分かりました。
関連論文リスト
- Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - Towards Generating Executable Metamorphic Relations Using Large Language
Models [49.632090604977364]
大規模言語モデル(LLM)を用いた要件から実行可能なMRを自動的に抽出する手法を提案する。
提案手法の有効性を評価するため,シーメンス・インダストリー・ソフトウェアと共同で質問紙調査を行った。
論文 参考訳(メタデータ) (2024-01-30T13:52:47Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。
この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:25:54Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。
特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。