論文の概要: How well does LLM generate security tests?
- arxiv url: http://arxiv.org/abs/2310.00710v2
- Date: Tue, 3 Oct 2023 03:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:27:45.836488
- Title: How well does LLM generate security tests?
- Title(参考訳): LLMはどの程度セキュリティテストを生成するのか?
- Authors: Ying Zhang, Wenjia Song, Zhengjie Ji, Danfeng (Daphne) Yao, Na Meng
- Abstract要約: 開発者は生産性とソフトウェア品質を改善するために、しばしばサードパーティライブラリ(Lib)の上にソフトウェアを構築する。
こうした攻撃をサプライチェーン攻撃と呼び、2022年には742%増加した。
セキュリティテストを生成するためにChatGPT-4.0を使用しました。
- 参考スコア(独自算出の注目度): 8.454827764115631
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Developers often build software on top of third-party libraries (Libs) to
improve programmer productivity and software quality. The libraries may contain
vulnerabilities exploitable by hackers to attack the applications (Apps) built
on top of them. People refer to such attacks as supply chain attacks, the
documented number of which has increased 742% in 2022. People created tools to
mitigate such attacks, by scanning the library dependencies of Apps,
identifying the usage of vulnerable library versions, and suggesting secure
alternatives to vulnerable dependencies. However, recent studies show that many
developers do not trust the reports by these tools; they ask for code or
evidence to demonstrate how library vulnerabilities lead to security exploits,
in order to assess vulnerability severity and modification necessity.
Unfortunately, manually crafting demos of application-specific attacks is
challenging and time-consuming, and there is insufficient tool support to
automate that procedure.
In this study, we used ChatGPT-4.0 to generate security tests, and to
demonstrate how vulnerable library dependencies facilitate the supply chain
attacks to given Apps. We explored various prompt styles/templates, and found
that ChatGPT-4.0 generated tests for all 55 Apps, demonstrating 24 attacks
successfully. It outperformed two state-of-the-art security test generators --
TRANSFER and SIEGE -- by generating a lot more tests and achieving more
exploits. ChatGPT-4.0 worked better when prompts described more on the
vulnerabilities, possible exploits, and code context. Our research will shed
light on new research in security test generation. The generated tests will
help developers create secure by design and secure by default software.
- Abstract(参考訳): 開発者はプログラマの生産性とソフトウェア品質を改善するために、サードパーティライブラリ(libs)上にソフトウェアを構築することが多い。
ライブラリには、その上に構築されたアプリケーション(アプリケーション)を攻撃するためにハッカーが悪用できる脆弱性が含まれている可能性がある。
こうした攻撃をサプライチェーン攻撃と呼び、2022年には742%増加した。
人々は、アプリのライブラリ依存関係をスキャンし、脆弱なライブラリバージョンの使用を識別し、脆弱な依存関係に対する安全な代替案を提案することで、そのような攻撃を軽減するツールを作成した。
しかし、最近の研究では、多くの開発者がこれらのツールによるレポートを信頼していないことが示されており、脆弱性の深刻さと修正の必要性を評価するために、ライブラリの脆弱性がセキュリティエクスプロイトにどのように寄与するかを示すコードや証拠を求めている。
残念ながら、アプリケーション固有の攻撃のデモを手動で作るのは困難で時間がかかり、その手順を自動化するためのツールサポートが不十分です。
本研究では,ChatGPT-4.0を使用してセキュリティテストを生成し,脆弱性のあるライブラリ依存が特定のアプリに対するサプライチェーン攻撃をいかに促進するかを示す。
さまざまなプロンプトスタイル/テンプレートを調査し、ChatGPT-4.0が全55アプリのテストを生成し、24回の攻撃が成功した。
多数のテストを生成し、より多くのエクスプロイトを達成することで、2つの最先端のセキュリティテストジェネレータであるTRANSFERとSIEGEを上回った。
ChatGPT-4.0は、脆弱性、可能なエクスプロイト、コードコンテキストについてより詳しく説明したとき、よりうまく機能した。
私たちの研究は、セキュリティテスト生成の新しい研究に光を当てます。
生成されたテストは、開発者が設計によるセキュアな開発と、デフォルトのソフトウェアによるセキュアな開発を支援する。
関連論文リスト
- HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Static Application Security Testing (SAST) Tools for Smart Contracts: How Far Are We? [14.974832502863526]
近年,スマートコントラクトセキュリティの重要性が高まっている。
この問題に対処するため、スマートコントラクトの脆弱性を検出するために、多数の静的アプリケーションセキュリティテスト(SAST)ツールが提案されている。
本稿では,スマートコントラクトに対する45種類の脆弱性を含む,最新のきめ細かな分類法を提案する。
論文 参考訳(メタデータ) (2024-04-28T13:40:18Z) - LLMs in Web Development: Evaluating LLM-Generated PHP Code Unveiling Vulnerabilities and Limitations [0.0]
本研究では,大規模言語モデルが生成するWebアプリケーションのセキュリティを評価し,2500 GPT-4生成PHP Webサイトを分析した。
本研究は,GPT-4 生成 PHP コード中の Insecure File Upload,sql Injection, Stored XSS, Reflected XSS の同定に重点を置いている。
BurpのScanによると、サイトの11.56%は、すぐに妥協できる。静的スキャンの結果が加わった26%には、Webインタラクションを通じて悪用できる少なくとも1つの脆弱性があった。
論文 参考訳(メタデータ) (2024-04-21T20:56:02Z) - An Investigation into Misuse of Java Security APIs by Large Language Models [9.453671056356837]
本稿では,Java のセキュリティ API ユースケースに対する ChatGPT のコード生成に対する信頼性を体系的に評価する。
タスク毎に30の試行にまたがるコードインスタンスの約70%には、セキュリティAPIの誤用が含まれており、20の異なる誤用タイプが識別されている。
約半数のタスクにおいて、この割合は100%に達し、開発者がセキュリティAPIコードを安全に実装するためにChatGPTに頼るまでには長い道のりがあることを示している。
論文 参考訳(メタデータ) (2024-04-04T22:52:41Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - Exploiting Library Vulnerability via Migration Based Automating Test
Generation [16.39796265296833]
ソフトウェア開発において、開発者は既存の機能を実装するのを避けるためにサードパーティのライブラリを幅広く利用する。
脆弱性のエクスプロイトは、公開後に脆弱性を再現するためのコードスニペットとして、豊富な脆弱性関連情報を含んでいる。
本研究は、開発者が依存関係を更新するかどうかを判断する基盤として脆弱性エクスプロイトテストを提供するVESTAと呼ばれる、脆弱性エクスプロイトに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T06:46:45Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - Demystifying RCE Vulnerabilities in LLM-Integrated Apps [20.01949990700702]
大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著なポテンシャルを示している。
一部のフレームワークはリモートコード実行(RCE)脆弱性に悩まされており、アタッカーはプロンプトインジェクションを通じてアプリのサーバ上で任意のコードをリモートで実行できる。
1) LLMSmithと呼ばれる静的解析ベースのツールで,潜在的RCE脆弱性を検出するためにフレームワークのソースコードをスキャンし,2) LLM統合Webアプリの脆弱性を検証するために,プロンプトベースの自動テストアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-06T11:39:37Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。