Fugu-MT 論文翻訳(概要): How well does LLM generate security tests?

論文の概要: How well does LLM generate security tests?

arxiv url: http://arxiv.org/abs/2310.00710v2
Date: Tue, 3 Oct 2023 03:29:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 05:27:45.836488
Title: How well does LLM generate security tests?
Title（参考訳）: LLMはどの程度セキュリティテストを生成するのか?
Authors: Ying Zhang, Wenjia Song, Zhengjie Ji, Danfeng (Daphne) Yao, Na Meng
Abstract要約: 開発者は生産性とソフトウェア品質を改善するために、しばしばサードパーティライブラリ(Lib)の上にソフトウェアを構築する。こうした攻撃をサプライチェーン攻撃と呼び、2022年には742%増加した。セキュリティテストを生成するためにChatGPT-4.0を使用しました。
参考スコア（独自算出の注目度）: 8.454827764115631
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Developers often build software on top of third-party libraries (Libs) to improve programmer productivity and software quality. The libraries may contain vulnerabilities exploitable by hackers to attack the applications (Apps) built on top of them. People refer to such attacks as supply chain attacks, the documented number of which has increased 742% in 2022. People created tools to mitigate such attacks, by scanning the library dependencies of Apps, identifying the usage of vulnerable library versions, and suggesting secure alternatives to vulnerable dependencies. However, recent studies show that many developers do not trust the reports by these tools; they ask for code or evidence to demonstrate how library vulnerabilities lead to security exploits, in order to assess vulnerability severity and modification necessity. Unfortunately, manually crafting demos of application-specific attacks is challenging and time-consuming, and there is insufficient tool support to automate that procedure. In this study, we used ChatGPT-4.0 to generate security tests, and to demonstrate how vulnerable library dependencies facilitate the supply chain attacks to given Apps. We explored various prompt styles/templates, and found that ChatGPT-4.0 generated tests for all 55 Apps, demonstrating 24 attacks successfully. It outperformed two state-of-the-art security test generators -- TRANSFER and SIEGE -- by generating a lot more tests and achieving more exploits. ChatGPT-4.0 worked better when prompts described more on the vulnerabilities, possible exploits, and code context. Our research will shed light on new research in security test generation. The generated tests will help developers create secure by design and secure by default software.
Abstract（参考訳）: 開発者はプログラマの生産性とソフトウェア品質を改善するために、サードパーティライブラリ(libs)上にソフトウェアを構築することが多い。ライブラリには、その上に構築されたアプリケーション(アプリケーション)を攻撃するためにハッカーが悪用できる脆弱性が含まれている可能性がある。こうした攻撃をサプライチェーン攻撃と呼び、2022年には742%増加した。人々は、アプリのライブラリ依存関係をスキャンし、脆弱なライブラリバージョンの使用を識別し、脆弱な依存関係に対する安全な代替案を提案することで、そのような攻撃を軽減するツールを作成した。しかし、最近の研究では、多くの開発者がこれらのツールによるレポートを信頼していないことが示されており、脆弱性の深刻さと修正の必要性を評価するために、ライブラリの脆弱性がセキュリティエクスプロイトにどのように寄与するかを示すコードや証拠を求めている。残念ながら、アプリケーション固有の攻撃のデモを手動で作るのは困難で時間がかかり、その手順を自動化するためのツールサポートが不十分です。本研究では,ChatGPT-4.0を使用してセキュリティテストを生成し,脆弱性のあるライブラリ依存が特定のアプリに対するサプライチェーン攻撃をいかに促進するかを示す。さまざまなプロンプトスタイル/テンプレートを調査し、ChatGPT-4.0が全55アプリのテストを生成し、24回の攻撃が成功した。多数のテストを生成し、より多くのエクスプロイトを達成することで、2つの最先端のセキュリティテストジェネレータであるTRANSFERとSIEGEを上回った。 ChatGPT-4.0は、脆弱性、可能なエクスプロイト、コードコンテキストについてより詳しく説明したとき、よりうまく機能した。私たちの研究は、セキュリティテスト生成の新しい研究に光を当てます。生成されたテストは、開発者が設計によるセキュアな開発と、デフォルトのソフトウェアによるセキュアな開発を支援する。

関連論文リスト

LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。 M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文参考訳（メタデータ） (2025-06-09T12:02:39Z)
Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。 SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文参考訳（メタデータ） (2025-05-17T15:54:52Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Discovery of Timeline and Crowd Reaction of Software Vulnerability Disclosures [47.435076500269545]
Apache Log4Jはリモートコード実行攻撃に対して脆弱であることが判明した。 35,000以上のパッケージが最新バージョンでLog4Jライブラリをアップデートせざるを得なかった。ソフトウェアベンダが脆弱性のないバージョンをリリースするたびに、ソフトウェア開発者がサードパーティのライブラリを更新するのは、事実上妥当です。
論文参考訳（メタデータ） (2024-11-12T01:55:51Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。 WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文参考訳（メタデータ） (2024-06-26T17:31:22Z)
Static Application Security Testing (SAST) Tools for Smart Contracts: How Far Are We? [14.974832502863526]
近年,スマートコントラクトセキュリティの重要性が高まっている。この問題に対処するため、スマートコントラクトの脆弱性を検出するために、多数の静的アプリケーションセキュリティテスト(SAST)ツールが提案されている。本稿では,スマートコントラクトに対する45種類の脆弱性を含む,最新のきめ細かな分類法を提案する。
論文参考訳（メタデータ） (2024-04-28T13:40:18Z)
LLMs in Web Development: Evaluating LLM-Generated PHP Code Unveiling Vulnerabilities and Limitations [0.0]
本研究では,大規模言語モデルが生成するWebアプリケーションのセキュリティを評価し,2500 GPT-4生成PHP Webサイトを分析した。本研究は,GPT-4 生成 PHP コード中の Insecure File Upload,sql Injection, Stored XSS, Reflected XSS の同定に重点を置いている。 BurpのScanによると、サイトの11.56%は、すぐに妥協できる。静的スキャンの結果が加わった26%には、Webインタラクションを通じて悪用できる少なくとも1つの脆弱性があった。
論文参考訳（メタデータ） (2024-04-21T20:56:02Z)
An Investigation into Misuse of Java Security APIs by Large Language Models [9.453671056356837]
本稿では,Java のセキュリティ API ユースケースに対する ChatGPT のコード生成に対する信頼性を体系的に評価する。タスク毎に30の試行にまたがるコードインスタンスの約70%には、セキュリティAPIの誤用が含まれており、20の異なる誤用タイプが識別されている。約半数のタスクにおいて、この割合は100%に達し、開発者がセキュリティAPIコードを安全に実装するためにChatGPTに頼るまでには長い道のりがあることを示している。
論文参考訳（メタデータ） (2024-04-04T22:52:41Z)
Exploiting Library Vulnerability via Migration Based Automating Test Generation [16.39796265296833]
ソフトウェア開発において、開発者は既存の機能を実装するのを避けるためにサードパーティのライブラリを幅広く利用する。脆弱性のエクスプロイトは、公開後に脆弱性を再現するためのコードスニペットとして、豊富な脆弱性関連情報を含んでいる。本研究は、開発者が依存関係を更新するかどうかを判断する基盤として脆弱性エクスプロイトテストを提供するVESTAと呼ばれる、脆弱性エクスプロイトに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2023-12-15T06:46:45Z)
Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文参考訳（メタデータ） (2023-09-25T17:08:02Z)
A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文参考訳（メタデータ） (2023-07-20T17:33:25Z)
On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。 Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文参考訳（メタデータ） (2023-06-08T20:14:46Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。