論文の概要: Securing LLM-Generated Embedded Firmware through AI Agent-Driven Validation and Patching
- arxiv url: http://arxiv.org/abs/2509.09970v1
- Date: Fri, 12 Sep 2025 05:15:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.980306
- Title: Securing LLM-Generated Embedded Firmware through AI Agent-Driven Validation and Patching
- Title(参考訳): AIエージェント駆動型検証とパッチングによるLLM生成組み込みファームウェアのセキュア化
- Authors: Seyed Moein Abtahi, Akramul Azim,
- Abstract要約: 大規模言語モデル(LLM)は組み込みシステムのためのファームウェアの生成を約束するが、しばしばセキュリティ上の欠陥を導入し、リアルタイムのパフォーマンス制約を満たさない。
本稿では,LLMベースのファームウェア生成と自動セキュリティ検証,反復的改善を組み合わせた3段階手法を提案する。
- 参考スコア(独自算出の注目度): 0.9582466286528458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) show promise in generating firmware for embedded systems, but often introduce security flaws and fail to meet real-time performance constraints. This paper proposes a three-phase methodology that combines LLM-based firmware generation with automated security validation and iterative refinement in a virtualized environment. Using structured prompts, models like GPT-4 generate firmware for networking and control tasks, deployed on FreeRTOS via QEMU. These implementations are tested using fuzzing, static analysis, and runtime monitoring to detect vulnerabilities such as buffer overflows (CWE-120), race conditions (CWE-362), and denial-of-service threats (CWE-400). Specialized AI agents for Threat Detection, Performance Optimization, and Compliance Verification collaborate to improve detection and remediation. Identified issues are categorized using CWE, then used to prompt targeted LLM-generated patches in an iterative loop. Experiments show a 92.4\% Vulnerability Remediation Rate (37.3\% improvement), 95.8\% Threat Model Compliance, and 0.87 Security Coverage Index. Real-time metrics include 8.6ms worst-case execution time and 195{\mu}s jitter. This process enhances firmware security and performance while contributing an open-source dataset for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は組み込みシステムのためのファームウェアの生成を約束するが、しばしばセキュリティ上の欠陥を導入し、リアルタイムのパフォーマンス制約を満たさない。
本稿では,LLMベースのファームウェア生成と自動セキュリティ検証と仮想環境における反復的改善を組み合わせた3段階の方法論を提案する。
構造化プロンプトを使用して、GPT-4のようなモデルは、QEMUを介してFreeRTOSにデプロイされるネットワークおよび制御タスクのためのファームウェアを生成する。
これらの実装はファジング、静的解析、実行時監視を使用してテストされ、バッファオーバーフロー(CWE-120)、競合条件(CWE-362)、サービス障害(CWE-400)などの脆弱性を検出する。
脅威検出、パフォーマンス最適化、コンプライアンス検証のための特殊AIエージェントは、検出と修復を改善するために協力する。
特定された問題は、CWEを使用して分類され、次に、反復ループでLLM生成パッチをプロンプトするために使用される。
実験では、92.4\%の脆弱性修正率(37.3\%の改善)、95.8\%の脅威モデルコンプライアンス、0.87のセキュリティカバレッジ指数が示されている。
リアルタイムメトリクスには、最悪のケースの実行時間8.6mと195{\mu}のジッターが含まれる。
このプロセスはファームウェアのセキュリティとパフォーマンスを高め、将来の研究のためにオープンソースのデータセットを提供する。
関連論文リスト
- Execution-State-Aware LLM Reasoning for Automated Proof-of-Vulnerability Generation [36.950993500170014]
本稿では,PoV生成を反復的仮説検証法として再構成するエージェントフレームワークであるDrillAgentを提案する。
我々は、実世界のC/C++脆弱性の大規模なベンチマークであるSEC-bench上でDrillAgentを評価する。
論文 参考訳(メタデータ) (2026-02-14T03:17:27Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - CHASE: LLM Agents for Dissecting Malicious PyPI Packages [2.384873896423002]
大規模言語モデル(LLM)は、自動コード分析に有望な機能を提供する。
セキュリティクリティカルなマルウェア検出への応用は、幻覚やコンテキストの混乱など、基本的な課題に直面している。
本稿では,これらの制約に対処する信頼性の高いマルチエージェントアーキテクチャCHASEを提案する。
論文 参考訳(メタデータ) (2026-01-11T10:06:14Z) - Improving LLM-Assisted Secure Code Generation through Retrieval-Augmented-Generation and Multi-Tool Feedback [1.1017250479834206]
大きな言語モデル(LLM)はコードを生成することができるが、セキュリティ上の脆弱性、論理的不整合、コンパイルエラーをしばしば導入する。
本稿では,1つのコード生成LLMが反復的に出力を洗練する検索拡張型マルチツール修復ワークフローを提案する。
論文 参考訳(メタデータ) (2026-01-01T23:34:00Z) - LLMs-Powered Real-Time Fault Injection: An Approach Toward Intelligent Fault Test Cases Generation [1.9435397960631864]
本稿では,新しいLarge Language Models (LLMs) 支援型フォールトテストケース (TCs) 生成手法を提案する。
提案手法は,F1スコアが88%,F1スコアが97.5%のFSR分類とフォールトTCの生成において高い性能を示す。
論文 参考訳(メタデータ) (2025-11-24T13:57:31Z) - ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - Mind the Gap: Time-of-Check to Time-of-Use Vulnerabilities in LLM-Enabled Agents [4.303444472156151]
大規模言語モデル(LLM)対応エージェントは、広範囲のアプリケーションで急速に出現している。
本研究は,LSM対応エージェントにおけるTOCTOU(time-of-use)脆弱性に関する最初の研究である。
我々は,このタイプの脆弱性を評価するために設計された,66の現実的なユーザタスクを備えたベンチマークTOCTOU-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-23T22:41:49Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。
思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T15:22:24Z) - LLM4CVE: Enabling Iterative Automated Vulnerability Repair with Large Language Models [9.946058168276744]
大規模言語モデル(LLM)は、多くのソフトウェア欠陥が自動的にパッチを当てられる可能性を開放した。
実世界のコードで脆弱な関数を高い精度で堅牢に修正する反復パイプラインを提案する。
また,Llama 370Bでは,人間の検証による品質スコアが8.51/10,Llama 370Bでは20%に向上した。
論文 参考訳(メタデータ) (2025-01-07T00:21:42Z) - Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection [9.269926508651091]
大規模言語モデル(LLM)は、脆弱性検出などの安全クリティカルなコードタスクに制限があることを示している。
本稿では,脆弱性の自然言語命令を,対照的な連鎖推論と統合する戦略を提案する。
本研究は,静的アナライザの厳格な手作りルールに代えて,セキュリティ対応のプロンプト技術が有効であることを示す。
論文 参考訳(メタデータ) (2024-12-16T18:08:14Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。