論文の概要: HardSecBench: Benchmarking the Security Awareness of LLMs for Hardware Code Generation
- arxiv url: http://arxiv.org/abs/2601.13864v1
- Date: Tue, 20 Jan 2026 11:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.282807
- Title: HardSecBench: Benchmarking the Security Awareness of LLMs for Hardware Code Generation
- Title(参考訳): HardSecBench: ハードウェアコード生成のためのLLMのセキュリティ意識のベンチマーク
- Authors: Qirui Chen, Jingxian Shuai, Shuangwu Chen, Shenghao Ye, Zijian Wen, Xufei Su, Jie Jin, Jiangming Li, Jun Chen, Xiaobin Tan, Jian Yang,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成のための実用的なハードウェアとファームウェア開発パイプラインに統合されつつある。
この研究ギャップは、現実的な仕様の下でセキュリティ意識を評価するためのベンチマークを設計する動機となります。
我々は、Verilog Registers Transfer Level (RTL)とファームウェアレベルCにまたがる924のタスクからなるベンチマークであるHardSecBenchを紹介し、76のハードウェア関連Common Weaknession (CWE)エントリをカバーしている。
- 参考スコア(独自算出の注目度): 24.138048137437078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are being increasingly integrated into practical hardware and firmware development pipelines for code generation. Existing studies have primarily focused on evaluating the functional correctness of LLM-generated code, yet paid limited attention to its security issues. However, LLM-generated code that appears functionally sound may embed security flaws which could induce catastrophic damages after deployment. This critical research gap motivates us to design a benchmark for assessing security awareness under realistic specifications. In this work, we introduce HardSecBench, a benchmark with 924 tasks spanning Verilog Register Transfer Level (RTL) and firmware-level C, covering 76 hardware-relevant Common Weakness Enumeration (CWE) entries. Each task includes a structured specification, a secure reference implementation, and executable tests. To automate artifact synthesis, we propose a multi-agent pipeline that decouples synthesis from verification and grounds evaluation in execution evidence, enabling reliable evaluation. Using HardSecBench, we evaluate a range of LLMs on hardware and firmware code generation and find that models often satisfy functional requirements while still leaving security risks. We also find that security results vary with prompting. These findings highlight pressing challenges and offer actionable insights for future advancements in LLM-assisted hardware design. Our data and code will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成のための実用的なハードウェアとファームウェア開発パイプラインに統合されつつある。
既存の研究は主にLLM生成コードの機能的正当性を評価することに重点を置いているが、セキュリティ問題に限定的な注意を払っている。
しかし、機能的に健全に見えるLCM生成コードは、デプロイ後に破滅的な損傷を引き起こす可能性のあるセキュリティ欠陥を埋め込む可能性がある。
この重要な研究ギャップは、現実的な仕様の下でセキュリティ意識を評価するためのベンチマークを設計する動機となります。
本稿では,Verilog Register Transfer Level (RTL) とファームウェアレベルCにまたがる924のタスクを対象とするベンチマークであるHardSecBenchを紹介し,76のハードウェア関連Common Weakness Enumeration (CWE) を対象とする。
各タスクには、構造化された仕様、セキュアな参照実装、実行可能なテストが含まれる。
人工物合成を自動化するために, 検証から合成を分離し, 信頼性の高い評価を可能にするマルチエージェントパイプラインを提案する。
HardSecBenchを用いて、ハードウェアおよびファームウェアコード生成におけるLLMの範囲を評価し、セキュリティリスクを残しながら、モデルがしばしば機能要件を満たすことを発見した。
セキュリティの結果も,プロンプトによって異なります。
これらの知見は、LCM支援ハードウェア設計における今後の進歩に対して、プレス的な課題を浮き彫りにし、実用的な洞察を提供する。
もうすぐデータとコードはリリースされます。
関連論文リスト
- A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。
データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。
SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T02:48:02Z) - VERINA: Benchmarking Verifiable Code Generation [46.582574591358735]
大規模言語モデル(LLM)は、ソフトウェア開発にますます統合されている。
LLM生成コードの正確性を保証することは依然として困難である。
検証可能なコード生成は、この制限に対処するための有望なパスを提供する。
論文 参考訳(メタデータ) (2025-05-29T06:12:52Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。