Fugu-MT 論文翻訳(概要): A Preliminary Study on Using Large Language Models in Software Pentesting

論文の概要: A Preliminary Study on Using Large Language Models in Software Pentesting

arxiv url: http://arxiv.org/abs/2401.17459v1
Date: Tue, 30 Jan 2024 21:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 16:15:34.472366
Title: A Preliminary Study on Using Large Language Models in Software Pentesting
Title（参考訳）: ソフトウェアテストにおける大規模言語モデルの利用に関する予備的検討
Authors: Kumar Shashwat, Francis Hahn, Xinming Ou, Dmitry Goldgof, Lawrence Hall, Jay Ligatti, S. Raj Rajgopalan, Armin Ziaie Tabari
Abstract要約: 大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
参考スコア（独自算出の注目度）: 2.0551676463612636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLM) are perceived to offer promising potentials for automating security tasks, such as those found in security operation centers (SOCs). As a first step towards evaluating this perceived potential, we investigate the use of LLMs in software pentesting, where the main task is to automatically identify software security vulnerabilities in source code. We hypothesize that an LLM-based AI agent can be improved over time for a specific security task as human operators interact with it. Such improvement can be made, as a first step, by engineering prompts fed to the LLM based on the responses produced, to include relevant contexts and structures so that the model provides more accurate results. Such engineering efforts become sustainable if the prompts that are engineered to produce better results on current tasks, also produce better results on future unknown tasks. To examine this hypothesis, we utilize the OWASP Benchmark Project 1.2 which contains 2,740 hand-crafted source code test cases containing various types of vulnerabilities. We divide the test cases into training and testing data, where we engineer the prompts based on the training data (only), and evaluate the final system on the testing data. We compare the AI agent's performance on the testing data against the performance of the agent without the prompt engineering. We also compare the AI agent's results against those from SonarQube, a widely used static code analyzer for security testing. We built and tested multiple versions of the AI agent using different off-the-shelf LLMs -- Google's Gemini-pro, as well as OpenAI's GPT-3.5-Turbo and GPT-4-Turbo (with both chat completion and assistant APIs). The results show that using LLMs is a viable approach to build an AI agent for software pentesting that can improve through repeated use and prompt engineering.
Abstract（参考訳）: 大規模言語モデル(LLM)は、セキュリティ操作センタ(SOC)に見られるようなセキュリティタスクを自動化するための有望な可能性を提供すると考えられている。この可能性を評価するための第一歩として、ソースコードにおけるソフトウェアセキュリティの脆弱性を自動的に識別するソフトウェアペンテスティングにおけるLLMの使用について検討する。 LLMベースのAIエージェントは、人間のオペレーターがそれと対話する際に、特定のセキュリティタスクのために時間とともに改善できると仮定する。このような改善は、生成した応答に基づいてLLMに送信されるエンジニアリングプロンプトによって、モデルがより正確な結果を提供するように、関連するコンテキストや構造を含めることができる。このようなエンジニアリングの取り組みは、現在のタスクでより良い結果を出すように設計されたプロンプトが、将来の未知のタスクでより良い結果を生み出すと持続的になる。この仮説を検証するために、様々な脆弱性を含む2,740の手作りソースコードテストケースを含むOWASP Benchmark Project 1.2を利用する。テストケースをトレーニングデータとテストデータに分割し、トレーニングデータ(のみ)に基づいてプロンプトを設計し、テストデータの最終システムを評価する。テストデータにおけるaiエージェントのパフォーマンスと,プロンプトエンジニアリングを使わずにエージェントのパフォーマンスを比較した。また、セキュリティテストに広く使用されている静的コードアナライザであるSonarQubeのものと、AIエージェントの結果を比較します。 GoogleのGemini-proとOpenAIのGPT-3.5-TurboとGPT-4-Turbo(チャット補完とアシスタントAPIの両方)を使って、さまざまなバージョンのAIエージェントを構築し、テストしました。その結果、llmsの使用はソフトウェアペンテスティングのためのaiエージェントを構築するための実行可能なアプローチであることが分かりました。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
eSapiens: A Platform for Secure and Auditable Retrieval-Augmented Generation [10.667949307405983]
eSapiensはAI(AI)プラットフォームで、ビジネス指向のトリフェクタ(プロプライエタリなデータ、運用、主要な言語モデル(LLM))を中心に開発されている。 eSapiensは、企業がAI資産を完全にコントロールし、AI知識の保持とデータセキュリティのためのすべてを社内に保持する。
論文参考訳（メタデータ） (2025-07-13T11:41:44Z)
Unified Software Engineering agent as AI Software Engineer [14.733475669942276]
大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
論文参考訳（メタデータ） (2025-06-17T16:19:13Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文参考訳（メタデータ） (2024-12-31T02:06:46Z)
An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文参考訳（メタデータ） (2024-11-06T22:48:18Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI [10.084913433923566]
AIベースのシステムは、多様なタスクをサポートすることによって数百万に影響を及ぼすが、誤情報、偏見、誤用といった問題に直面している。本研究では,Large Language Models (LLM) を用いたAI倫理の実践について検討する。エージェントがAIインシデントデータベースから現実のAI倫理問題に関する構造化された議論を行うプロトタイプを設計する。
論文参考訳（メタデータ） (2024-10-25T20:17:59Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Automating REST API Postman Test Cases Using LLM [0.0]
本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。この方法論は、テストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。
論文参考訳（メタデータ） (2024-04-16T15:53:41Z)
Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文参考訳（メタデータ） (2024-03-13T11:29:13Z)
Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文参考訳（メタデータ） (2023-07-24T19:59:22Z)
A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文参考訳（メタデータ） (2023-07-20T17:33:25Z)
Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文参考訳（メタデータ） (2022-03-06T10:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。