Fugu-MT 論文翻訳(概要): Benchmarking Prompt Engineering Techniques for Secure Code Generation with GPT Models

論文の概要: Benchmarking Prompt Engineering Techniques for Secure Code Generation with GPT Models

arxiv url: http://arxiv.org/abs/2502.06039v1
Date: Sun, 09 Feb 2025 21:23:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.549971
Title: Benchmarking Prompt Engineering Techniques for Secure Code Generation with GPT Models
Title（参考訳）: GPTモデルを用いたセキュアコード生成のためのベンチマークプロンプトエンジニアリング手法
Authors: Marc Bruni, Fabio Gabrielli, Mohammad Ghafari, Martin Kropp,
Abstract要約: コードセキュリティに対する様々な迅速なエンジニアリング戦略の影響を評価するために,ベンチマークを実装した。我々は, GPT-3.5-turbo, GPT-4o, GPT-4o-miniで複数のプロンプトエンジニアリング手法を試験した。テストされたすべてのモデルは、以前に生成されたコードの脆弱性の41.9%から68.7%を検知し、修復する機能を示した。
参考スコア（独自算出の注目度）: 1.0874597293913013
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt engineering reduces reasoning mistakes in Large Language Models (LLMs). However, its effectiveness in mitigating vulnerabilities in LLM-generated code remains underexplored. To address this gap, we implemented a benchmark to automatically assess the impact of various prompt engineering strategies on code security. Our benchmark leverages two peer-reviewed prompt datasets and employs static scanners to evaluate code security at scale. We tested multiple prompt engineering techniques on GPT-3.5-turbo, GPT-4o, and GPT-4o-mini. Our results show that for GPT-4o and GPT-4o-mini, a security-focused prompt prefix can reduce the occurrence of security vulnerabilities by up to 56%. Additionally, all tested models demonstrated the ability to detect and repair between 41.9% and 68.7% of vulnerabilities in previously generated code when using iterative prompting techniques. Finally, we introduce a "prompt agent" that demonstrates how the most effective techniques can be applied in real-world development workflows.
Abstract（参考訳）: Prompt Engineeringは、Large Language Models (LLMs)における推論ミスを減らす。しかし、LLM生成コードにおける脆弱性の軽減効果はいまだ未定である。このギャップに対処するため、コードセキュリティに対する様々な迅速なエンジニアリング戦略の影響を自動的に評価するベンチマークを実装しました。ベンチマークでは、2つのピアレビューされたプロンプトデータセットを活用し、静的スキャナーを用いてコードのセキュリティを大規模に評価する。我々は, GPT-3.5-turbo, GPT-4o, GPT-4o-miniで複数のプロンプトエンジニアリング手法を試験した。以上の結果から,GPT-4oとGPT-4o-miniでは,セキュリティ重視のプロンプトプレフィックスがセキュリティ脆弱性の発生を最大56%減少させる可能性が示唆された。さらに、すべてのテストされたモデルは、反復的なプロンプト技術を使用する際に、以前に生成されたコードの脆弱性の41.9%から68.7%を検出および修復する機能を示した。最後に、実世界の開発ワークフローに最も効果的なテクニックをどのように適用できるかを示す「プロンプトエージェント」を紹介します。

関連論文リスト

LLM vs. SAST: A Technical Analysis on Detecting Coding Bugs of GPT4-Advanced Data Analysis [0.3495246564946556]
GPT-4(Advanced Data Analysis)は、32種類の悪用可能な脆弱性の検出において、94%の精度でSASTを上回っている。この研究は、LSMを取り巻く潜在的なセキュリティ上の懸念にも対処する。
論文参考訳（メタデータ） (2025-06-18T07:47:12Z)
Leveraging GPT-4 for Vulnerability-Witnessing Unit Test Generation [0.6571063542099526]
本稿では,最も広く使用されている大規模言語モデルであるGPT-4の自動単体テスト生成機能について検討する。実際の脆弱性とそれに対応する修正を含むVUL4Jデータセットのサブセットについて検討する。我々は,コードコンテキストの影響,GPT-4の自己補正能力の有効性,生成したテストケースの主観的使用性に着目した。
論文参考訳（メタデータ） (2025-06-13T08:13:07Z)
LProtector: An LLM-driven Vulnerability Detection System [3.175156999656286]
LProtectorは、大規模言語モデル(LLM) GPT-4oとRetrieval-Augmented Generation(RAG)によって駆動されるC/C++の自動脆弱性検出システムである。
論文参考訳（メタデータ） (2024-11-10T15:21:30Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
How Well Do Large Language Models Serve as End-to-End Secure Code Producers? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。 4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文参考訳（メタデータ） (2024-08-20T02:42:29Z)
Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文参考訳（メタデータ） (2024-07-23T17:50:45Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Prompting Techniques for Secure Code Generation: A Systematic Investigation [4.777102838267181]
大規模言語モデル(LLM)は、プロンプト駆動プログラミングによるソフトウェア開発で勢いを増している。 LLMによるNL命令から生成されたコードのセキュリティに異なるプロンプト技術が与える影響について検討する。
論文参考訳（メタデータ） (2024-07-09T17:38:03Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文参考訳（メタデータ） (2024-06-10T14:18:56Z)
Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。 GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文参考訳（メタデータ） (2023-08-20T19:33:12Z)
A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文参考訳（メタデータ） (2023-07-20T17:33:25Z)
Uncovering the Limits of Machine Learning for Automatic Vulnerability Detection [12.529028629599349]
本稿では,ML4VD技術の真の性能と限界をよりよく評価するための新しいベンチマーク手法を提案する。 6つのML4VD技術と2つのデータセットを使用して、(a)テストデータの脆弱性を予測するために、最先端のモデルが無関係な機能に過度に適合していること、(b)データ拡張によって得られるパフォーマンスが、トレーニング中に適用される特定の拡張を超えて一般化されないことを発見した。
論文参考訳（メタデータ） (2023-06-28T08:41:39Z)
Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文参考訳（メタデータ） (2023-06-16T15:13:17Z)
Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS) 我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文参考訳（メタデータ） (2023-04-21T14:06:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。