論文の概要: How well does LLM generate security tests?
- arxiv url: http://arxiv.org/abs/2310.00710v2
- Date: Tue, 3 Oct 2023 03:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:27:45.836488
- Title: How well does LLM generate security tests?
- Title(参考訳): LLMはどの程度セキュリティテストを生成するのか?
- Authors: Ying Zhang, Wenjia Song, Zhengjie Ji, Danfeng (Daphne) Yao, Na Meng
- Abstract要約: 開発者は生産性とソフトウェア品質を改善するために、しばしばサードパーティライブラリ(Lib)の上にソフトウェアを構築する。
こうした攻撃をサプライチェーン攻撃と呼び、2022年には742%増加した。
セキュリティテストを生成するためにChatGPT-4.0を使用しました。
- 参考スコア(独自算出の注目度): 8.454827764115631
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Developers often build software on top of third-party libraries (Libs) to
improve programmer productivity and software quality. The libraries may contain
vulnerabilities exploitable by hackers to attack the applications (Apps) built
on top of them. People refer to such attacks as supply chain attacks, the
documented number of which has increased 742% in 2022. People created tools to
mitigate such attacks, by scanning the library dependencies of Apps,
identifying the usage of vulnerable library versions, and suggesting secure
alternatives to vulnerable dependencies. However, recent studies show that many
developers do not trust the reports by these tools; they ask for code or
evidence to demonstrate how library vulnerabilities lead to security exploits,
in order to assess vulnerability severity and modification necessity.
Unfortunately, manually crafting demos of application-specific attacks is
challenging and time-consuming, and there is insufficient tool support to
automate that procedure.
In this study, we used ChatGPT-4.0 to generate security tests, and to
demonstrate how vulnerable library dependencies facilitate the supply chain
attacks to given Apps. We explored various prompt styles/templates, and found
that ChatGPT-4.0 generated tests for all 55 Apps, demonstrating 24 attacks
successfully. It outperformed two state-of-the-art security test generators --
TRANSFER and SIEGE -- by generating a lot more tests and achieving more
exploits. ChatGPT-4.0 worked better when prompts described more on the
vulnerabilities, possible exploits, and code context. Our research will shed
light on new research in security test generation. The generated tests will
help developers create secure by design and secure by default software.
- Abstract(参考訳): 開発者はプログラマの生産性とソフトウェア品質を改善するために、サードパーティライブラリ(libs)上にソフトウェアを構築することが多い。
ライブラリには、その上に構築されたアプリケーション(アプリケーション)を攻撃するためにハッカーが悪用できる脆弱性が含まれている可能性がある。
こうした攻撃をサプライチェーン攻撃と呼び、2022年には742%増加した。
人々は、アプリのライブラリ依存関係をスキャンし、脆弱なライブラリバージョンの使用を識別し、脆弱な依存関係に対する安全な代替案を提案することで、そのような攻撃を軽減するツールを作成した。
しかし、最近の研究では、多くの開発者がこれらのツールによるレポートを信頼していないことが示されており、脆弱性の深刻さと修正の必要性を評価するために、ライブラリの脆弱性がセキュリティエクスプロイトにどのように寄与するかを示すコードや証拠を求めている。
残念ながら、アプリケーション固有の攻撃のデモを手動で作るのは困難で時間がかかり、その手順を自動化するためのツールサポートが不十分です。
本研究では,ChatGPT-4.0を使用してセキュリティテストを生成し,脆弱性のあるライブラリ依存が特定のアプリに対するサプライチェーン攻撃をいかに促進するかを示す。
さまざまなプロンプトスタイル/テンプレートを調査し、ChatGPT-4.0が全55アプリのテストを生成し、24回の攻撃が成功した。
多数のテストを生成し、より多くのエクスプロイトを達成することで、2つの最先端のセキュリティテストジェネレータであるTRANSFERとSIEGEを上回った。
ChatGPT-4.0は、脆弱性、可能なエクスプロイト、コードコンテキストについてより詳しく説明したとき、よりうまく機能した。
私たちの研究は、セキュリティテスト生成の新しい研究に光を当てます。
生成されたテストは、開発者が設計によるセキュアな開発と、デフォルトのソフトウェアによるセキュアな開発を支援する。
関連論文リスト
- Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Exploiting Library Vulnerability via Migration Based Automating Test
Generation [16.39796265296833]
ソフトウェア開発において、開発者は既存の機能を実装するのを避けるためにサードパーティのライブラリを幅広く利用する。
脆弱性のエクスプロイトは、公開後に脆弱性を再現するためのコードスニペットとして、豊富な脆弱性関連情報を含んでいる。
本研究は、開発者が依存関係を更新するかどうかを判断する基盤として脆弱性エクスプロイトテストを提供するVESTAと呼ばれる、脆弱性エクスプロイトに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T06:46:45Z) - Generate and Pray: Using SALLMS to Evaluate the Security of LLM
Generated Code [0.7451457983372032]
大規模言語モデルによって生成されたコードが正しいだけでなく、脆弱性もないことを保証することが重要です。
LLM(Large Language Models)を評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。
生成されたコードのセキュリティを評価することに焦点を当てたベンチマークが明らかに欠落している。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [70.83306884808988]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
ツールエミュレータと評価器の両方を人体評価によりテストし,ToolEmuで特定されたエラーの68.8%が実世界のエージェントの失敗であることを確認した。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。
各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。
GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文 参考訳(メタデータ) (2023-08-20T19:33:12Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - Vulnerability Detection Using Two-Stage Deep Learning Models [0.0]
C/C++ソースコードの脆弱性検出には,2つのディープラーニングモデルが提案されている。
最初のステージはCNNで、ソースコードに脆弱性があるかどうかを検出する。
2番目のステージは、この脆弱性を50種類の脆弱性のクラスに分類するCNN-LTSMである。
論文 参考訳(メタデータ) (2023-05-08T22:12:34Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。