Fugu-MT 論文翻訳(概要): LLMs in Web-Development: Evaluating LLM-Generated PHP code unveiling vulnerabilities and limitations

論文の概要: LLMs in Web-Development: Evaluating LLM-Generated PHP code unveiling vulnerabilities and limitations

arxiv url: http://arxiv.org/abs/2404.14459v1
Date: Sun, 21 Apr 2024 20:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 18:07:28.896361
Title: LLMs in Web-Development: Evaluating LLM-Generated PHP code unveiling vulnerabilities and limitations
Title（参考訳）: Web開発におけるLLM: 脆弱性と制限を明らかにするLLM生成PHPコードの評価
Authors: Rebeka Tóth, Tamas Bisztray, László Erdodi,
Abstract要約: 本研究は,大規模言語モデルにより生成されたWebアプリケーションのコードセキュリティを網羅的に検証する。ウェブサイトの評価は、Burp Suiteのアクティブスキャナー、静的解析、手動チェックを組み込んだハイブリッド手法を用いて行われた。 GPT-4で生成されたプログラムの27%がPHPコードに脆弱性が含まれていることが確認された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This research carries out a comprehensive examination of web application code security, when generated by Large Language Models through analyzing a dataset comprising 2,500 small dynamic PHP websites. These AI-generated sites are scanned for security vulnerabilities after being deployed as standalone websites in Docker containers. The evaluation of the websites was conducted using a hybrid methodology, incorporating the Burp Suite active scanner, static analysis, and manual checks. Our investigation zeroes in on identifying and analyzing File Upload, SQL Injection, Stored XSS, and Reflected XSS. This approach not only underscores the potential security flaws within AI-generated PHP code but also provides a critical perspective on the reliability and security implications of deploying such code in real-world scenarios. Our evaluation confirms that 27% of the programs generated by GPT-4 verifiably contains vulnerabilities in the PHP code, where this number -- based on static scanning and manual verification -- is potentially much higher. This poses a substantial risks to software safety and security. In an effort to contribute to the research community and foster further analysis, we have made the source codes publicly available, alongside a record enumerating the detected vulnerabilities for each sample. This study not only sheds light on the security aspects of AI-generated code but also underscores the critical need for rigorous testing and evaluation of such technologies for software development.
Abstract（参考訳）: 本研究では,大規模言語モデルによって生成されたWebアプリケーションコードのセキュリティについて,2500の動的PHP Webサイトからなるデータセットを解析し,包括的な検証を行う。これらのAI生成サイトは、DockerコンテナにスタンドアロンのWebサイトとしてデプロイされた後、セキュリティ上の脆弱性のためにスキャンされる。ウェブサイトの評価は、Burp Suiteのアクティブスキャナー、静的解析、手動チェックを組み込んだハイブリッド手法を用いて行われた。調査では、ファイルアップロード、SQLインジェクション、ストアドXSS、リフレクションXSSの特定と分析についてゼロです。このアプローチは、AIが生成するPHPコードの潜在的なセキュリティ欠陥を浮き彫りにするだけでなく、そのようなコードを現実のシナリオにデプロイする際の信頼性とセキュリティに関する重要な視点を提供する。 GPT-4で生成されたプログラムの27%がPHPコードの脆弱性を検証しており、この数は静的スキャンと手動による検証に基づいている。これはソフトウェアの安全性とセキュリティに重大なリスクをもたらす。研究コミュニティにコントリビュートし、さらなる分析を促進するため、サンプル毎に検出された脆弱性を列挙した記録とともに、ソースコードを公開しました。この研究は、AI生成コードのセキュリティ面に光を当てるだけでなく、厳格なテストとソフトウェア開発のためのそのような技術の評価の必要性を浮き彫りにしている。

関連論文リスト

CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
Dancer in the Dark: Synthesizing and Evaluating Polyglots for Blind Cross-Site Scripting [10.696934248458136]
クロスサイトスクリプティング(クロスサイトスクリプティング、クロスサイトスクリプティング、英: Cross-Site Scripting、XSS)は、Webアプリケーションにおける一般的なセキュリティ問題である。ブラインドXSS(BXSS)の総合的研究について紹介する。我々は,ポリグロットを合成する手法を開発し,すべての共通注入コンテキストで実行される小型XSSペイロードについて述べる。
論文参考訳（メタデータ） (2025-02-12T15:02:30Z)
RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。 RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。 RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文参考訳（メタデータ） (2024-11-12T13:30:06Z)
Yama: Precise Opcode-based Data Flow Analysis for Detecting PHP Applications Vulnerabilities [4.262259005587605]
Yama は、PHP のための文脈に敏感で経路に敏感な相互言語間データフロー解析手法である。我々は,PHPオペコードの正確なセマンティクスと明確な制御フローにより,データフロー解析をより正確かつ効率的に行えることを発見した。我々は,基本データフロー解析機能,複雑な意味解析機能,実世界のアプリケーションにおける脆弱性発見機能という3つの側面からヤマを評価した。
論文参考訳（メタデータ） (2024-10-16T08:14:37Z)
SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [47.11178028457252]
我々はGenAIのリスクをコードする統合的かつ包括的な評価プラットフォームSecCodePLTを開発した。安全でないコードには、専門家と自動生成を組み合わせたデータ生成のための新しい方法論を導入する。サイバー攻撃支援のために、我々はモデルに実際の攻撃を引き起こすよう促すサンプルと、我々の環境における動的な指標を構築した。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
RealVul: Can We Detect Vulnerabilities in Web Applications with LLM? [4.467475584754677]
本稿では,PHP 脆弱性検出用に設計された最初の LLM ベースのフレームワークである RealVul を紹介する。コードの合理化と不要なセマンティック情報を排除しながら、潜在的な脆弱性トリガを分離できます。また、データ合成法の改善により、PHPの脆弱性サンプルが不足している問題にも対処する。
論文参考訳（メタデータ） (2024-10-10T03:16:34Z)
LLM-Assisted Static Analysis for Detecting Security Vulnerabilities [14.188864624736938]
大規模な言語モデル(LLM)は印象的なコード生成機能を示しているが、そのような脆弱性を検出するためにコードに対して複雑な推論を行うことはできない。我々は,LLMと静的解析を体系的に組み合わせ,セキュリティ脆弱性検出のための全体リポジトリ推論を行うニューロシンボリックアプローチであるIRISを提案する。
論文参考訳（メタデータ） (2024-05-27T14:53:35Z)
Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。 GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文参考訳（メタデータ） (2023-08-20T19:33:12Z)
Vulnerability Detection Using Two-Stage Deep Learning Models [0.0]
C/C++ソースコードの脆弱性検出には,2つのディープラーニングモデルが提案されている。最初のステージはCNNで、ソースコードに脆弱性があるかどうかを検出する。 2番目のステージは、この脆弱性を50種類の脆弱性のクラスに分類するCNN-LTSMである。
論文参考訳（メタデータ） (2023-05-08T22:12:34Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文参考訳（メタデータ） (2020-10-19T13:09:31Z)
Autosploit: A Fully Automated Framework for Evaluating the Exploitability of Security Vulnerabilities [47.748732208602355]
Autosploitは脆弱性の悪用性を評価するためのフレームワークだ。環境の異なる設定でエクスプロイトを自動的にテストする。ノイズレス環境とノイズの多い環境の両方で脆弱性を悪用する能力に影響を与えるシステムの特性を識別することができる。
論文参考訳（メタデータ） (2020-06-30T18:49:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。