論文の概要: SecureRAG-RTL: A Retrieval-Augmented, Multi-Agent, Zero-Shot LLM-Driven Framework for Hardware Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2603.05689v1
- Date: Thu, 05 Mar 2026 21:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.499663
- Title: SecureRAG-RTL: A Retrieval-Augmented, Multi-Agent, Zero-Shot LLM-Driven Framework for Hardware Vulnerability Detection
- Title(参考訳): SecureRAG-RTL:ハードウェア脆弱性検出のための検索,マルチエージェント,ゼロショットLCM駆動フレームワーク
- Authors: Touseef Hasan, Blessing Airehenbuwa, Nitin Pundir, Souvika Sarkar, Ujjwal Guin,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示している。
本稿では, SecureRAG-RTL(Retrieval-Augmented Generation (RAG) に基づく新しいアプローチを提案する。
提案手法は,ドメイン固有検索と生成推論を統合し,ハードウェアセキュリティの専門知識に固有の制約を克服する。
- 参考スコア(独自算出の注目度): 1.4675092799855405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in natural language processing tasks, yet their application in hardware security verification remains limited due to scarcity of publicly available hardware description language (HDL) datasets. This knowledge gap constrains LLM performance in detecting vulnerabilities within HDL designs. To address this challenge, we propose SecureRAG-RTL, a novel Retrieval-Augmented Generation (RAG)-based approach that significantly enhances LLM-based security verification of hardware designs. Our approach integrates domain-specific retrieval with generative reasoning, enabling models to overcome inherent limitations in hardware security expertise. We establish baseline vulnerability detection rates using prompt-only methods and then demonstrate that SecureRAG-RTL achieves substantial improvements across diverse LLM architectures, regardless of size. On average, our method increases detection accuracy by about 30%, highlighting its effectiveness in bridging domain knowledge gaps. For evaluation, we curated and annotated a benchmark dataset of 14 HDL designs containing real-world security vulnerabilities, which we will release publicly to support future research. These findings underscore the potential of RAG-driven augmentation to enable scalable, efficient, and accurate hardware security verification workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理タスクにおいて顕著な能力を示しているが、ハードウェアセキュリティ検証の応用は、一般に利用可能なハードウェア記述言語(HDL)データセットが不足しているため、依然として限られている。
この知識ギャップは、HDL設計における脆弱性の検出においてLLM性能を制約する。
この課題に対処するために、ハードウェア設計のLLMに基づくセキュリティ検証を大幅に強化する新しいRAG(Retrieval-Augmented Generation)ベースのアプローチであるSecureRAG-RTLを提案する。
提案手法は,ドメイン固有検索と生成推論を統合し,ハードウェアセキュリティの専門知識に固有の制約を克服する。
我々は,プロンプトのみの手法を用いてベースライン脆弱性検出率を確立し,その上でSecureRAG-RTLが,サイズに関係なく多様なLLMアーキテクチャにおいて大幅な改善を実現することを示す。
本手法は,平均して検出精度を約30%向上させ,ドメイン知識のギャップを埋めることの有効性を強調した。
評価のために、実際のセキュリティ脆弱性を含む14のHDL設計のベンチマークデータセットをキュレートし、注釈付けし、将来の研究をサポートするために公開します。
これらの発見は、スケーラブルで効率的で正確なハードウェアセキュリティ検証ワークフローを実現するために、RAG駆動の強化の可能性を強調している。
関連論文リスト
- CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence [48.63397742510097]
サイバー脅威インテリジェンス(CTI)は現代のサイバーセキュリティの中心であり、進化する脅威を検出し緩和するための重要な洞察を提供する。
大規模言語モデル(LLM)の自然言語理解と推論能力により、CTIに適用することへの関心が高まっている。
異種マルチソースCTI上でLLM性能を評価するための最初のベンチマークであるCTIArenaを提案する。
論文 参考訳(メタデータ) (2025-10-13T22:10:17Z) - BugWhisperer: Fine-Tuning LLMs for SoC Hardware Vulnerability Detection [1.0816123715383426]
本稿では,システムオンチップ(SoC)セキュリティ検証の課題を解決するために,BugWhispererという新しいフレームワークを提案する。
我々は、SoCのセキュリティ脆弱性を検出するために特別に設計された、オープンソースで微調整されたLarge Language Model (LLM)を紹介する。
論文 参考訳(メタデータ) (2025-05-28T21:25:06Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Evolutionary Large Language Models for Hardware Security: A Comparative Survey [0.4642370358223669]
本研究では,レジスタ転送レベル(RTL)設計におけるLLM(Large Language Models)統合の種について検討する。
LLMは、HW設計に固有のセキュリティ関連脆弱性を自動的に修正するために利用することができる。
論文 参考訳(メタデータ) (2024-04-25T14:42:12Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。