Fugu-MT 論文翻訳(概要): A New Era in Software Security: Towards Self-Healing Software via Large Language Models and Formal Verification

論文の概要: A New Era in Software Security: Towards Self-Healing Software via Large Language Models and Formal Verification

arxiv url: http://arxiv.org/abs/2305.14752v1
Date: Wed, 24 May 2023 05:54:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 19:20:14.813770
Title: A New Era in Software Security: Towards Self-Healing Software via Large Language Models and Formal Verification
Title（参考訳）: ソフトウェアセキュリティの新しい時代--大規模言語モデルと形式的検証による自己修復ソフトウェアへ
Authors: Yiannis Charalambous, Norbert Tihanyi, Ridhi Jain, Youcheng Sun, Mohamed Amine Ferrag, Lucas C. Cordeiro
Abstract要約: 本稿では,Large Language Models(LLM)とFormal Verification戦略を組み合わせた新しいソリューションを提案する。提案手法は,脆弱なコードの修復において,最大80%の成功率を達成した。
参考スコア（独自算出の注目度）: 5.509906684981751
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper we present a novel solution that combines the capabilities of Large Language Models (LLMs) with Formal Verification strategies to verify and automatically repair software vulnerabilities. Initially, we employ Bounded Model Checking (BMC) to locate the software vulnerability and derive a counterexample. The counterexample provides evidence that the system behaves incorrectly or contains a vulnerability. The counterexample that has been detected, along with the source code, are provided to the LLM engine. Our approach involves establishing a specialized prompt language for conducting code debugging and generation to understand the vulnerability's root cause and repair the code. Finally, we use BMC to verify the corrected version of the code generated by the LLM. As a proof of concept, we create ESBMC-AI based on the Efficient SMT-based Context-Bounded Model Checker (ESBMC) and a pre-trained Transformer model, specifically gpt-3.5-turbo, to detect and fix errors in C programs. Our experimentation involved generating a dataset comprising 1000 C code samples, each consisting of 20 to 50 lines of code. Notably, our proposed method achieved an impressive success rate of up to 80% in repairing vulnerable code encompassing buffer overflow and pointer dereference failures. We assert that this automated approach can effectively incorporate into the software development lifecycle's continuous integration and deployment (CI/CD) process.
Abstract（参考訳）: 本稿では,大規模言語モデル(llms)の機能と,ソフトウェア脆弱性の検証と自動修復のための形式的検証戦略を組み合わせた新しいソリューションを提案する。最初は、境界モデルチェック(BMC)を使用して、ソフトウェア脆弱性を特定し、反例を導出します。逆例は、システムが誤って振る舞う、または脆弱性を含むという証拠を提供する。検出された逆例とソースコードはllmエンジンに提供される。当社のアプローチでは、脆弱性の根本原因を理解してコードを修復するために、コードのデバッグと生成を行うための特別なプロンプト言語を確立します。最後に、BMCを用いて、LLMによって生成されたコードの修正版を検証する。概念実証として、効率的なSMTベースのコンテキスト境界モデルチェッカー(ESBMC)と事前訓練されたトランスフォーマーモデル(特にgpt-3.5-turbo)に基づいてESBMC-AIを作成し、Cプログラムのエラーを検出し、修正する。実験では、1000のcコードサンプルからなるデータセットを作成し、それぞれ20行から50行のコードからなる。特に,提案手法はバッファオーバーフローやポインタ参照障害を含む脆弱性コードの修復において,最大80%の成功率を達成した。この自動化アプローチは、ソフトウェア開発ライフサイクルの継続的インテグレーションとデプロイメント(ci/cd)プロセスに効果的に組み込むことができると断言します。

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文参考訳（メタデータ） (2024-06-24T15:45:22Z)
Verifying components of Arm(R) Confidential Computing Architecture with ESBMC [6.914213030256384]
Realm Management Monitor (RMM) はArm Confidential Computing Architecture (Arm CCA) において重要なファームウェアコンポーネントであるこれまでの研究は、RMMの仕様とプロトタイプ参照実装の検証に形式的検証技術を適用していた。本稿では,SMT(Satifiability Modulo Theories)ベースのソフトウェアモデルチェッカーであるESBMCの適用について述べる。
論文参考訳（メタデータ） (2024-06-05T09:09:37Z)
Automated Repair of AI Code with Large Language Models and Formal Verification [4.9975496263385875]
次世代のAIシステムは強力な安全保証を必要とする。本稿では,ニューラルネットワークと関連するメモリ安全性特性のソフトウェア実装について述べる。これらの脆弱性を検出し、大きな言語モデルの助けを借りて自動的に修復します。
論文参考訳（メタデータ） (2024-05-14T11:52:56Z)
Automating SBOM Generation with Zero-Shot Semantic Similarity [2.169562514302842]
Software-Bill-of-Materials (SBOM)は、ソフトウェアアプリケーションのコンポーネントと依存関係を詳述した総合的なインベントリである。本稿では,破壊的なサプライチェーン攻撃を防止するため,SBOMを自動生成する手法を提案する。テスト結果は説得力があり、ゼロショット分類タスクにおけるモデルの性能を示す。
論文参考訳（メタデータ） (2024-02-03T18:14:13Z)
The FormAI Dataset: Generative AI in Software Security Through the Lens of Formal Verification [3.2925005312612323]
本稿では,脆弱性分類を伴う112,000のAI生成Cプログラムの大規模なコレクションであるFormAIデータセットを提案する。すべてのプログラムには、型、行番号、脆弱な関数名を示すソースコード内の脆弱性がラベル付けされている。ソースコードは112,000のプログラムで利用でき、各プログラムで検出された脆弱性を含む別のファイルが付属する。
論文参考訳（メタデータ） (2023-07-05T10:39:58Z)
PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文参考訳（メタデータ） (2023-03-31T18:03:53Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-29T14:32:46Z)
Multi-context Attention Fusion Neural Network for Software Vulnerability Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文参考訳（メタデータ） (2021-04-19T11:50:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。