論文の概要: Leveraging GPT-4 for Vulnerability-Witnessing Unit Test Generation
- arxiv url: http://arxiv.org/abs/2506.11559v1
- Date: Fri, 13 Jun 2025 08:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.712034
- Title: Leveraging GPT-4 for Vulnerability-Witnessing Unit Test Generation
- Title(参考訳): 脆弱性対応ユニットテスト生成のためのGPT-4の活用
- Authors: Gábor Antal, Dénes Bán, Martin Isztin, Rudolf Ferenc, Péter Hegedűs,
- Abstract要約: 本稿では,最も広く使用されている大規模言語モデルであるGPT-4の自動単体テスト生成機能について検討する。
実際の脆弱性とそれに対応する修正を含むVUL4Jデータセットのサブセットについて検討する。
我々は,コードコンテキストの影響,GPT-4の自己補正能力の有効性,生成したテストケースの主観的使用性に着目した。
- 参考スコア(独自算出の注目度): 0.6571063542099526
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the life-cycle of software development, testing plays a crucial role in quality assurance. Proper testing not only increases code coverage and prevents regressions but it can also ensure that any potential vulnerabilities in the software are identified and effectively fixed. However, creating such tests is a complex, resource-consuming manual process. To help developers and security experts, this paper explores the automatic unit test generation capability of one of the most widely used large language models, GPT-4, from the perspective of vulnerabilities. We examine a subset of the VUL4J dataset containing real vulnerabilities and their corresponding fixes to determine whether GPT-4 can generate syntactically and/or semantically correct unit tests based on the code before and after the fixes as evidence of vulnerability mitigation. We focus on the impact of code contexts, the effectiveness of GPT-4's self-correction ability, and the subjective usability of the generated test cases. Our results indicate that GPT-4 can generate syntactically correct test cases 66.5\% of the time without domain-specific pre-training. Although the semantic correctness of the fixes could be automatically validated in only 7. 5\% of the cases, our subjective evaluation shows that GPT-4 generally produces test templates that can be further developed into fully functional vulnerability-witnessing tests with relatively minimal manual effort. Therefore, despite the limited data, our initial findings suggest that GPT-4 can be effectively used in the generation of vulnerability-witnessing tests. It may not operate entirely autonomously, but it certainly plays a significant role in a partially automated process.
- Abstract(参考訳): ソフトウェア開発のライフサイクルにおいて、テストは品質保証において重要な役割を果たす。
適切なテストはコードカバレッジを高め、回帰を防ぐだけでなく、ソフトウェアの潜在的な脆弱性が特定され、効果的に修正されることも保証します。
しかし、そのようなテストを作成するのは複雑でリソースを消費する手作業です。
開発者やセキュリティの専門家を支援するために,脆弱性の観点から,最も広く使用されている大規模言語モデルであるGPT-4のユニットテスト自動生成機能について検討する。
実際の脆弱性とそれに対応する修正を含むVUL4Jデータセットのサブセットを調べ、GPT-4が、脆弱性軽減の証拠として、修正前後のコードに基づいて、構文的および/または意味論的に正しい単体テストを生成することができるかどうかを判断する。
我々は,コードコンテキストの影響,GPT-4の自己補正能力の有効性,生成したテストケースの主観的使用性に着目した。
以上の結果から, GPT-4は, ドメイン固有の事前トレーニングを伴わずに, 66.5 %の時間で構文的に正しいテストケースを生成できることが示唆された。
しかし、修正の意味的正しさは7で自動的に検証できる。
5 %のケースにおいて,GPT-4 は比較的最小限の手作業で,より機能的な脆弱性知能テストに発展するテストテンプレートを一般的に生成することを示した。
したがって,データに制限があるにもかかわらず,GPT-4は脆弱性知能テストの生成に有効である可能性が示唆された。
完全に自律的に動作するわけではないかもしれないが、部分的に自動化されたプロセスにおいて、確実に重要な役割を果たす。
関連論文リスト
- A Multi-Dataset Evaluation of Models for Automated Vulnerability Repair [2.7674959824386858]
本研究では、6つのデータセットと4つの言語にまたがる自動脆弱性パッチのための事前訓練された言語モデルであるCodeBERTとCodeT5について検討する。
それらの精度と一般化を未知の脆弱性に対して評価する。
結果は、両方のモデルが断片化やスパースなコンテキストで課題に直面しているのに対して、CodeBERTはそのようなシナリオでは比較的優れたパフォーマンスを示し、CodeT5は複雑な脆弱性パターンのキャプチャに優れていることを示している。
論文 参考訳(メタデータ) (2025-06-05T13:00:19Z) - Benchmarking Prompt Engineering Techniques for Secure Code Generation with GPT Models [1.0874597293913013]
コードセキュリティに対する様々な迅速なエンジニアリング戦略の影響を評価するために,ベンチマークを実装した。
我々は, GPT-3.5-turbo, GPT-4o, GPT-4o-miniで複数のプロンプトエンジニアリング手法を試験した。
テストされたすべてのモデルは、以前に生成されたコードの脆弱性の41.9%から68.7%を検知し、修復する機能を示した。
論文 参考訳(メタデータ) (2025-02-09T21:23:07Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。
AUGERには欠陥検出とエラートリガーという2つのステージがある。
F1スコアと欠陥検出精度で4.7%から35.3%向上した。
ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文 参考訳(メタデータ) (2024-12-01T14:28:48Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Automated Proof Generation for Rust Code via Self-Evolution [69.25795662658356]
私たちは、Rustコードの自動証明生成を可能にする、人書きスニペットの欠如を克服するフレームワークであるSAFEを紹介します。
SAFEは、細調整されたモデルの自己老化能力を訓練するために、多数の合成不正確な証明を再利用する。
我々は、人間の専門家によるベンチマークで52.52%の精度で達成し、GPT-4oのパフォーマンス14.39%を大きく上回った。
論文 参考訳(メタデータ) (2024-10-21T08:15:45Z) - Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。
新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。
既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文 参考訳(メタデータ) (2024-06-10T14:18:56Z) - Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。
各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。
GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文 参考訳(メタデータ) (2023-08-20T19:33:12Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。
自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。
我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文 参考訳(メタデータ) (2023-06-16T15:13:17Z) - AI-assisted coding: Experiments with GPT-4 [0.22366638308792727]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。
これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T22:59:01Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。