論文の概要: LLMs in Web-Development: Evaluating LLM-Generated PHP code unveiling vulnerabilities and limitations
- arxiv url: http://arxiv.org/abs/2404.14459v1
- Date: Sun, 21 Apr 2024 20:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:07:28.896361
- Title: LLMs in Web-Development: Evaluating LLM-Generated PHP code unveiling vulnerabilities and limitations
- Title(参考訳): Web開発におけるLLM: 脆弱性と制限を明らかにするLLM生成PHPコードの評価
- Authors: Rebeka Tóth, Tamas Bisztray, László Erdodi,
- Abstract要約: 本研究は,大規模言語モデルにより生成されたWebアプリケーションのコードセキュリティを網羅的に検証する。
ウェブサイトの評価は、Burp Suiteのアクティブスキャナー、静的解析、手動チェックを組み込んだハイブリッド手法を用いて行われた。
GPT-4で生成されたプログラムの27%がPHPコードに脆弱性が含まれていることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research carries out a comprehensive examination of web application code security, when generated by Large Language Models through analyzing a dataset comprising 2,500 small dynamic PHP websites. These AI-generated sites are scanned for security vulnerabilities after being deployed as standalone websites in Docker containers. The evaluation of the websites was conducted using a hybrid methodology, incorporating the Burp Suite active scanner, static analysis, and manual checks. Our investigation zeroes in on identifying and analyzing File Upload, SQL Injection, Stored XSS, and Reflected XSS. This approach not only underscores the potential security flaws within AI-generated PHP code but also provides a critical perspective on the reliability and security implications of deploying such code in real-world scenarios. Our evaluation confirms that 27% of the programs generated by GPT-4 verifiably contains vulnerabilities in the PHP code, where this number -- based on static scanning and manual verification -- is potentially much higher. This poses a substantial risks to software safety and security. In an effort to contribute to the research community and foster further analysis, we have made the source codes publicly available, alongside a record enumerating the detected vulnerabilities for each sample. This study not only sheds light on the security aspects of AI-generated code but also underscores the critical need for rigorous testing and evaluation of such technologies for software development.
- Abstract(参考訳): 本研究では,大規模言語モデルによって生成されたWebアプリケーションコードのセキュリティについて,2500の動的PHP Webサイトからなるデータセットを解析し,包括的な検証を行う。
これらのAI生成サイトは、DockerコンテナにスタンドアロンのWebサイトとしてデプロイされた後、セキュリティ上の脆弱性のためにスキャンされる。
ウェブサイトの評価は、Burp Suiteのアクティブスキャナー、静的解析、手動チェックを組み込んだハイブリッド手法を用いて行われた。
調査では、ファイルアップロード、SQLインジェクション、ストアドXSS、リフレクションXSSの特定と分析についてゼロです。
このアプローチは、AIが生成するPHPコードの潜在的なセキュリティ欠陥を浮き彫りにするだけでなく、そのようなコードを現実のシナリオにデプロイする際の信頼性とセキュリティに関する重要な視点を提供する。
GPT-4で生成されたプログラムの27%がPHPコードの脆弱性を検証しており、この数は静的スキャンと手動による検証に基づいている。
これはソフトウェアの安全性とセキュリティに重大なリスクをもたらす。
研究コミュニティにコントリビュートし、さらなる分析を促進するため、サンプル毎に検出された脆弱性を列挙した記録とともに、ソースコードを公開しました。
この研究は、AI生成コードのセキュリティ面に光を当てるだけでなく、厳格なテストとソフトウェア開発のためのそのような技術の評価の必要性を浮き彫りにしている。
関連論文リスト
- Exploring Safety Generalization Challenges of Large Language Models via Code [126.80573601180411]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの共通の安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [67.38554763406098]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、安全を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。
各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。
GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文 参考訳(メタデータ) (2023-08-20T19:33:12Z) - SecureFalcon: The Next Cyber Reasoning System for Cyber Security [1.0700114817489723]
本稿では,FalconLLM上に構築された革新的なモデルアーキテクチャであるSecureFalconを紹介する。
SecureFalconは、脆弱性のあるCコードのサンプルと非脆弱性なCコードのサンプルを区別するように訓練されている。
我々は、その性能を評価するために、生成人工知能(AI)によって構築された新しいトレーニングデータセット、FormAIを構築した。
論文 参考訳(メタデータ) (2023-07-13T08:34:09Z) - When Authentication Is Not Enough: On the Security of Behavioral-Based Driver Authentication Systems [53.2306792009435]
本研究では,機械学習(ML)とディープラーニング(DL)アーキテクチャに基づく軽量な行動ベースドライバ認証システムの開発を行う。
我々は、新たな回避攻撃のクラスであるGAN-CANを初めて提案し、攻撃者が完璧な攻撃成功率でこれらのシステムをどのように活用できるかを示した。
コントリビューションを通じて、これらのシステムを安全に採用する実践者を支援し、車の盗難を軽減し、ドライバーのセキュリティを高める。
論文 参考訳(メタデータ) (2023-06-09T14:33:26Z) - Vulnerability Detection Using Two-Stage Deep Learning Models [0.0]
C/C++ソースコードの脆弱性検出には,2つのディープラーニングモデルが提案されている。
最初のステージはCNNで、ソースコードに脆弱性があるかどうかを検出する。
2番目のステージは、この脆弱性を50種類の脆弱性のクラスに分類するCNN-LTSMである。
論文 参考訳(メタデータ) (2023-05-08T22:12:34Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。