論文の概要: A New Era in Software Security: Towards Self-Healing Software via Large
Language Models and Formal Verification
- arxiv url: http://arxiv.org/abs/2305.14752v1
- Date: Wed, 24 May 2023 05:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:20:14.813770
- Title: A New Era in Software Security: Towards Self-Healing Software via Large
Language Models and Formal Verification
- Title(参考訳): ソフトウェアセキュリティの新しい時代--大規模言語モデルと形式的検証による自己修復ソフトウェアへ
- Authors: Yiannis Charalambous, Norbert Tihanyi, Ridhi Jain, Youcheng Sun,
Mohamed Amine Ferrag, Lucas C. Cordeiro
- Abstract要約: 本稿では,Large Language Models(LLM)とFormal Verification戦略を組み合わせた新しいソリューションを提案する。
提案手法は,脆弱なコードの修復において,最大80%の成功率を達成した。
- 参考スコア(独自算出の注目度): 5.509906684981751
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we present a novel solution that combines the capabilities of
Large Language Models (LLMs) with Formal Verification strategies to verify and
automatically repair software vulnerabilities. Initially, we employ Bounded
Model Checking (BMC) to locate the software vulnerability and derive a
counterexample. The counterexample provides evidence that the system behaves
incorrectly or contains a vulnerability. The counterexample that has been
detected, along with the source code, are provided to the LLM engine. Our
approach involves establishing a specialized prompt language for conducting
code debugging and generation to understand the vulnerability's root cause and
repair the code. Finally, we use BMC to verify the corrected version of the
code generated by the LLM. As a proof of concept, we create ESBMC-AI based on
the Efficient SMT-based Context-Bounded Model Checker (ESBMC) and a pre-trained
Transformer model, specifically gpt-3.5-turbo, to detect and fix errors in C
programs. Our experimentation involved generating a dataset comprising 1000 C
code samples, each consisting of 20 to 50 lines of code. Notably, our proposed
method achieved an impressive success rate of up to 80% in repairing vulnerable
code encompassing buffer overflow and pointer dereference failures. We assert
that this automated approach can effectively incorporate into the software
development lifecycle's continuous integration and deployment (CI/CD) process.
- Abstract(参考訳): 本稿では,大規模言語モデル(llms)の機能と,ソフトウェア脆弱性の検証と自動修復のための形式的検証戦略を組み合わせた新しいソリューションを提案する。
最初は、境界モデルチェック(BMC)を使用して、ソフトウェア脆弱性を特定し、反例を導出します。
逆例は、システムが誤って振る舞う、または脆弱性を含むという証拠を提供する。
検出された逆例とソースコードはllmエンジンに提供される。
当社のアプローチでは、脆弱性の根本原因を理解してコードを修復するために、コードのデバッグと生成を行うための特別なプロンプト言語を確立します。
最後に、BMCを用いて、LLMによって生成されたコードの修正版を検証する。
概念実証として、効率的なSMTベースのコンテキスト境界モデルチェッカー(ESBMC)と事前訓練されたトランスフォーマーモデル(特にgpt-3.5-turbo)に基づいてESBMC-AIを作成し、Cプログラムのエラーを検出し、修正する。
実験では、1000のcコードサンプルからなるデータセットを作成し、それぞれ20行から50行のコードからなる。
特に,提案手法はバッファオーバーフローやポインタ参照障害を含む脆弱性コードの修復において,最大80%の成功率を達成した。
この自動化アプローチは、ソフトウェア開発ライフサイクルの継続的インテグレーションとデプロイメント(ci/cd)プロセスに効果的に組み込むことができると断言します。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - Verifying components of Arm(R) Confidential Computing Architecture with ESBMC [6.914213030256384]
Realm Management Monitor (RMM) はArm Confidential Computing Architecture (Arm CCA) において重要なファームウェアコンポーネントである
これまでの研究は、RMMの仕様とプロトタイプ参照実装の検証に形式的検証技術を適用していた。
本稿では,SMT(Satifiability Modulo Theories)ベースのソフトウェアモデルチェッカーであるESBMCの適用について述べる。
論文 参考訳(メタデータ) (2024-06-05T09:09:37Z) - Automated Repair of AI Code with Large Language Models and Formal Verification [4.9975496263385875]
次世代のAIシステムは強力な安全保証を必要とする。
本稿では,ニューラルネットワークと関連するメモリ安全性特性のソフトウェア実装について述べる。
これらの脆弱性を検出し、大きな言語モデルの助けを借りて自動的に修復します。
論文 参考訳(メタデータ) (2024-05-14T11:52:56Z) - Automating SBOM Generation with Zero-Shot Semantic Similarity [2.169562514302842]
Software-Bill-of-Materials (SBOM)は、ソフトウェアアプリケーションのコンポーネントと依存関係を詳述した総合的なインベントリである。
本稿では,破壊的なサプライチェーン攻撃を防止するため,SBOMを自動生成する手法を提案する。
テスト結果は説得力があり、ゼロショット分類タスクにおけるモデルの性能を示す。
論文 参考訳(メタデータ) (2024-02-03T18:14:13Z) - The FormAI Dataset: Generative AI in Software Security Through the Lens of Formal Verification [3.2925005312612323]
本稿では,脆弱性分類を伴う112,000のAI生成Cプログラムの大規模なコレクションであるFormAIデータセットを提案する。
すべてのプログラムには、型、行番号、脆弱な関数名を示すソースコード内の脆弱性がラベル付けされている。
ソースコードは112,000のプログラムで利用でき、各プログラムで検出された脆弱性を含む別のファイルが付属する。
論文 参考訳(メタデータ) (2023-07-05T10:39:58Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。