論文の概要: LLM-HyPZ: Hardware Vulnerability Discovery using an LLM-Assisted Hybrid Platform for Zero-Shot Knowledge Extraction and Refinement
- arxiv url: http://arxiv.org/abs/2509.00647v1
- Date: Sun, 31 Aug 2025 00:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.320889
- Title: LLM-HyPZ: Hardware Vulnerability Discovery using an LLM-Assisted Hybrid Platform for Zero-Shot Knowledge Extraction and Refinement
- Title(参考訳): LLM-HyPZ:ゼロショット知識抽出・精製のためのLLM支援ハイブリッドプラットフォームによるハードウェア脆弱性発見
- Authors: Yu-Zheng Lin, Sujan Ghimire, Abhiram Nandimandalam, Jonah Michael Camacho, Unnati Tripathi, Rony Macwan, Sicong Shao, Setareh Rafatirad, Rozhin Yasaei, Pratik Satam, Soheil Salehi,
- Abstract要約: LLM-HyPZは、脆弱性コーパスからのゼロショット知識抽出と改善のためのハイブリッドフレームワークである。
LLM-HyPZを2021-2024 CVEコーパス(114,836エントリ)に適用し、1,742のハードウェア関連脆弱性を特定した。
7つのLCMのベンチマークでは、LLaMA 3.3 70Bはキュレートされた検証セットでほぼ完全な分類精度(99.5%)を達成することが示されている。
- 参考スコア(独自算出の注目度): 2.128195197142326
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid growth of hardware vulnerabilities has created an urgent need for systematic and scalable analysis methods. Unlike software flaws, which are often patchable post-deployment, hardware weaknesses remain embedded across product lifecycles, posing persistent risks to processors, embedded devices, and IoT platforms. Existing efforts such as the MITRE CWE Hardware List (2021) relied on expert-driven Delphi surveys, which lack statistical rigor and introduce subjective bias, while large-scale data-driven foundations for hardware weaknesses have been largely absent. In this work, we propose LLM-HyPZ, an LLM-assisted hybrid framework for zero-shot knowledge extraction and refinement from vulnerability corpora. Our approach integrates zero-shot LLM classification, contextualized embeddings, unsupervised clustering, and prompt-driven summarization to mine hardware-related CVEs at scale. Applying LLM-HyPZ to the 2021-2024 CVE corpus (114,836 entries), we identified 1,742 hardware-related vulnerabilities. We distilled them into five recurring themes, including privilege escalation via firmware and BIOS, memory corruption in mobile and IoT systems, and physical access exploits. Benchmarking across seven LLMs shows that LLaMA 3.3 70B achieves near-perfect classification accuracy (99.5%) on a curated validation set. Beyond methodological contributions, our framework directly supported the MITRE CWE Most Important Hardware Weaknesses (MIHW) 2025 update by narrowing the candidate search space. Specifically, our pipeline surfaced 411 of the 1,026 CVEs used for downstream MIHW analysis, thereby reducing expert workload and accelerating evidence gathering. These results establish LLM-HyPZ as the first data-driven, scalable approach for systematically discovering hardware vulnerabilities, thereby bridging the gap between expert knowledge and real-world vulnerability evidence.
- Abstract(参考訳): ハードウェア脆弱性の急速な増加は、システマティックでスケーラブルな分析方法に対する緊急の要求を生み出した。
ソフトウェア欠陥は、しばしばパッチが当てられるポストデプロイと異なり、ハードウェアの弱点は製品ライフサイクル全体に埋め込まれており、プロセッサ、組み込みデバイス、IoTプラットフォームに永続的なリスクを及ぼす。
MITRE CWEハードウェアリスト(2021年)のような既存の取り組みは、統計的厳密さと主観的偏見を欠いている専門家主導のDelphiサーベイに頼っている。
本研究では,脆弱性コーパスからのゼロショット知識抽出と改善のためのLLM-HyPZを提案する。
提案手法は,ゼロショットLCM分類,文脈的埋め込み,教師なしクラスタリング,およびハードウェア関連CVEを大規模にマイニングするためのインシデント駆動要約を統合した。
LLM-HyPZを2021-2024 CVEコーパス(114,836エントリ)に適用し、1,742のハードウェア関連脆弱性を特定した。
ファームウェアとBIOSによる特権エスカレーション、モバイルおよびIoTシステムのメモリ破損、物理的アクセスエクスプロイトなど、これらを5つの繰り返しテーマに蒸留しました。
7つのLCMのベンチマークでは、LLaMA 3.3 70Bはキュレートされた検証セットでほぼ完全な分類精度(99.5%)を達成することが示されている。
方法論的貢献以外にも,我々のフレームワークは,候補検索スペースを狭めることで,MITRE CWE Most important Hardware Weaknesses (MIHW) 2025 アップデートを直接サポートした。
具体的には, 下流MIHW解析に使用される1,026個のCVEのうち411個のパイプラインを探索し, 専門家の作業負荷を低減し, 証拠収集を加速した。
これらの結果は、LLM-HyPZを、ハードウェア脆弱性を体系的に発見する最初のデータ駆動でスケーラブルなアプローチとして確立し、専門家の知識と現実世界の脆弱性証拠のギャップを埋める。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - CHASE: LLM Agents for Dissecting Malicious PyPI Packages [2.384873896423002]
大規模言語モデル(LLM)は、自動コード分析に有望な機能を提供する。
セキュリティクリティカルなマルウェア検出への応用は、幻覚やコンテキストの混乱など、基本的な課題に直面している。
本稿では,これらの制約に対処する信頼性の高いマルチエージェントアーキテクチャCHASEを提案する。
論文 参考訳(メタデータ) (2026-01-11T10:06:14Z) - An Empirical Evaluation of LLM-Based Approaches for Code Vulnerability Detection: RAG, SFT, and Dual-Agent Systems [1.5216960763930782]
LLM(Large Language Models)の急速な進歩は、自動ソフトウェア脆弱性検出の新しい機会を提供する。
本稿では,ソフトウェア脆弱性検出のためのLLM技術の有効性について比較検討する。
論文 参考訳(メタデータ) (2026-01-01T08:05:51Z) - Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - Detecting Vulnerabilities from Issue Reports for Internet-of-Things [0.0]
21のEclipse IoTプロジェクトの脆弱性表示問題を検出するための2つのアプローチを提案する。
vulを分類するための11,000のGitHubイシューに対して、トレーニング済みのBERT Masked Language Model(MLM)を微調整します。
当社のコントリビューションは、IoT以外のシステムと同じように、イシューレポートからIoT脆弱性を正確に検出するステージを設定しました。
論文 参考訳(メタデータ) (2025-11-03T05:59:34Z) - ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - AutoPatch: Multi-Agent Framework for Patching Real-World CVE Vulnerabilities [7.812032134834162]
大規模言語モデル(LLM)はソフトウェア開発において有望なツールとして登場した。
彼らの知識は、固定されたカットオフ日に限定されており、新しく公開されたCVEに脆弱なコードを生成する傾向がある。
脆弱なLLM生成コードにパッチを当てるためのフレームワークであるAutoPatchを提案する。
論文 参考訳(メタデータ) (2025-05-07T07:49:05Z) - Unveiling the Landscape of LLM Deployment in the Wild: An Empirical Study [7.5198516000202105]
大規模言語モデル(LLM)は、オープンソースおよび商用フレームワークを通じてますますデプロイされている。
LLMのデプロイメントが特に業界で普及するにつれて、安全で信頼性の高い運用が重要な問題になっている。
安全でないデフォルトと設定ミスはしばしばLLMサービスを公開インターネットに公開し、重大なセキュリティとシステムエンジニアリングのリスクを生じさせる。
論文 参考訳(メタデータ) (2025-05-05T09:30:19Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - ProveRAG: Provenance-Driven Vulnerability Analysis with Automated Retrieval-Augmented LLMs [1.7191671053507043]
セキュリティアナリストは、新たに発見された脆弱性をリアルタイムで軽減するという課題に直面している。
1999年以降、30,000以上の共通脆弱性と暴露が特定されている。
2024年には25,000以上の脆弱性が特定されている。
論文 参考訳(メタデータ) (2024-10-22T20:28:57Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。