論文の概要: HarmChip: Evaluating Hardware Security Centric LLM Safety via Jailbreak Benchmarking
- arxiv url: http://arxiv.org/abs/2604.17093v1
- Date: Sat, 18 Apr 2026 18:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.33052
- Title: HarmChip: Evaluating Hardware Security Centric LLM Safety via Jailbreak Benchmarking
- Title(参考訳): HarmChip: Jailbreakベンチマークによるハードウェアセキュリティセンターの安全性評価
- Authors: Zeng Wang, Minghao Shao, Weimin Fu, Prithwish Basu Roy, Xiaolong Guo, Ramesh Karri, Muhammad Shafique, Johann Knechtel, Ozgur Sinanoglu,
- Abstract要約: 大規模言語モデル(LLM)を電子設計自動化(EDA)に統合することで、RTL生成、検証、設計最適化のための強力な機能を導入している。
この領域における悪意あるLCM出力は、ハードウェアトロイの木馬挿入、サイドチャネルリーク、知的財産盗難などのハードウェアレベルの脅威を引き起こす。
我々は、ハードウェアセキュリティにおけるジェイルブレイクの感受性を評価するために、HarmChipベンチマークを提示した。
- 参考スコア(独自算出の注目度): 16.989871108981465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of large language models (LLMs) into electronic design automation (EDA) workflows has introduced powerful capabilities for RTL generation, verification, and design optimization, but also raises critical security concerns. Malicious LLM outputs in this domain pose hardware-level threats, including hardware Trojan insertion, side-channel leakage, and intellectual property theft, that are irreversible once fabricated into silicon. Such requests often exploit semantic disguise, embedding adversarial intent within legitimate engineering language that existing safety mechanisms, trained on general-purpose hazards, fail to detect. No benchmark exists to evaluate LLM vulnerability to such domain-specific threats. We present the HarmChip benchmark to assess jailbreak susceptibility in hardware security, spanning 16 hardware security domains, 120 threats, and 360 prompts at two difficulty levels. Evaluation of state-of-the-art LLMs reveals an alignment paradox: They refuse legitimate security queries while complying with semantically disguised attacks, exposing blind spots in safety guardrails and underscoring the need for domain-aware safety alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)を電子設計自動化(EDA)ワークフローに統合することで、RTL生成、検証、設計最適化のための強力な能力が導入されたが、重要なセキュリティ上の懸念も持ち上がった。
この領域における悪意あるLCM出力は、ハードウェアトロイの木馬の挿入、サイドチャネルの漏洩、知的財産の盗難などのハードウェアレベルの脅威を引き起こす。
このような要求は、しばしば、汎用的なハザードで訓練された既存の安全メカニズムが検出できない、正統なエンジニアリング言語に、意味論的偽装、敵の意図を埋め込む。
このようなドメイン固有の脅威に対してLLM脆弱性を評価するためのベンチマークは存在しない。
我々は、ハードウェアセキュリティにおけるジェイルブレイクの感受性を評価するために、HarmChipベンチマークを提示した。
彼らは、意味論的に偽装された攻撃に順応しながら、正当なセキュリティクエリを拒否し、安全ガードレールの盲点を露出させ、ドメインを意識した安全アライメントの必要性を強調します。
関連論文リスト
- Can Agents Secure Hardware? Evaluating Agentic LLM-Driven Obfuscation for IP Protection [1.7331553371038069]
本稿では,自動ハードウェアネットリスト難読化のためのエージェント型大規模言語モデル(LLM)によるフレームワークを提案する。
1つのプロンプト・ツー・アウトプット生成ステップではなく、このフレームワークはタスクを回路解析、合成、検証、攻撃評価のための特別なステージに分解する。
その結果, SAT攻撃は有効でありながら, 不正鍵の下で測定可能な出力劣化を導入しながら, 正しいロックネットリストを生成することがわかった。
論文 参考訳(メタデータ) (2026-04-14T21:04:48Z) - Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-04T08:12:06Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Security Steerability is All You Need [3.475823664889679]
この研究は、GenAIセキュリティに対するアプリケーション中心のアプローチに焦点を当てている。
LLMはアドホックなアプリケーション固有の脅威から保護することはできないが、そのような脅威からアプリケーションを保護するためのフレームワークを提供することができる。
最初のコントリビューションはセキュリティステアビリティの定義です - LLMの新たなセキュリティ対策であり、システムプロンプトで定義された厳格なガードレールに従うモデルの能力を評価します。
第2のコントリビューションは、VeganRibsと呼ばれる新しいベンチマークを利用して、LLMのセキュリティステアビリティを測定する手法です。
論文 参考訳(メタデータ) (2025-04-28T06:40:01Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。