論文の概要: Semantic Consensus Decoding: Backdoor Defense for Verilog Code Generation
- arxiv url: http://arxiv.org/abs/2602.04195v1
- Date: Wed, 04 Feb 2026 04:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.364491
- Title: Semantic Consensus Decoding: Backdoor Defense for Verilog Code Generation
- Title(参考訳): Semantic Consensus Decoding: Verilogコード生成のためのバックドアディフェンス
- Authors: Guang Yang, Xing Hu, Xiang Chen, Xin Xia,
- Abstract要約: Verilogコード生成のための大規模言語モデル(LLM)は、ハードウェア設計においてますます採用されている。
LLMは、訓練中に悪意のあるトリガーを注入して脆弱性のあるハードウェア設計を誘導するバックドア攻撃に対して脆弱である。
提案するセマンティック・コンセンサス・デコーディング(SCD, Semantic Consensus Decoding)は,2つのキーコンポーネントを持つ推論時受動的ディフェンスである。
- 参考スコア(独自算出の注目度): 16.148817642071638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) for Verilog code generation are increasingly adopted in hardware design, yet remain vulnerable to backdoor attacks where adversaries inject malicious triggers during training to induce vulnerable hardware designs. Unlike patchable software vulnerabilities, hardware trojans become irreversible once fabricated, making remediation extremely costly or impossible. Existing active defenses require access to training data, impractical for third-party LLM users, while passive defenses struggle against semantically stealthy triggers that naturally blend into design specifications. In this paper, we hypothesize that under the requirements of both effectiveness and stealthiness, attackers are strongly biased toward embedding triggers in non-functional requirements (e.g., style modifiers, quality descriptors) rather than functional specifications that determine hardware behavior. Exploiting this insight, we propose Semantic Consensus Decoding (SCD), an inference-time passive defense with two key components: (1) functional requirement extraction that identifies essential requirements from user specifications, and (2) consensus decoding that adaptively fuses output distributions based on full user specifications and extracted functional requirements. When these distributions diverge significantly, SCD automatically suppresses suspicious components. Extensive experiments with three representative backdoor attacks demonstrate that SCD reduces average attack success rate from 89% to under 3% with negligible impact on generation quality.
- Abstract(参考訳): Verilogコード生成のための大規模言語モデル(LLM)は、ハードウェア設計においてますます採用されているが、悪意のあるハードウェア設計を誘導するトレーニング中に、敵が悪意のあるトリガーを注入するバックドア攻撃には弱いままである。
パッチ可能なソフトウェア脆弱性とは異なり、ハードウェアトロイの木馬は一度製造されると不可逆となり、修復は非常にコストがかかるか不可能になる。
既存のアクティブディフェンスは、サードパーティのLLMユーザにとって非現実的なトレーニングデータへのアクセスを必要とし、パッシブディフェンスは、設計仕様に自然にブレンドされるセマンティックステルスのトリガーと戦っている。
本稿では, ハードウェアの動作を決定する機能仕様ではなく, 非機能要件(スタイル修飾子, 品質記述子など)の埋め込みトリガに対して, 攻撃者が強く偏見を抱いていることを仮定する。
提案するセマンティック・コンセンサス・デコーディング(SCD, Semantic Consensus Decoding)は,(1) ユーザ仕様から必須要件を識別する機能要件抽出,(2) 完全なユーザ仕様に基づいて出力分布を適応的に融合し,機能要件を抽出するコンセンサス・デコーディングである。
これらの分布が著しく分散すると、SCDは疑わしい成分を自動的に抑制する。
3つの代表的なバックドア攻撃による大規模な実験により、SCDは平均攻撃成功率を89%から3%以下に下げ、生成品質に無視できない影響を及ぼすことが示された。
関連論文リスト
- Semantically-Equivalent Transformations-Based Backdoor Attacks against Neural Code Models: Characterization and Mitigation [13.36343806244795]
セマンティック・等価トランスフォーメーション(SET)ベースのバックドアアタックと呼ばれる,新たなバックドアアタックを導入する。
SETをベースとした攻撃は、モデルユーティリティを保ちながら高い成功率(しばしば90%)を達成することを示す。
この攻撃は高いステルス性を示し、注射ベースの防御よりも平均25.13%以上低い検出率で最先端の防御を回避している。
論文 参考訳(メタデータ) (2025-12-22T09:54:52Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - GUARD:Dual-Agent based Backdoor Defense on Chain-of-Thought in Neural Code Generation [17.36458017234638]
GUARDは、ニューラルコード生成におけるCoTバックドア攻撃に対抗するために設計された、新しいデュアルエージェント防御フレームワークである。
GUARDは2つのコアコンポーネントを統合している。GUARD-Judgeは不審なCoTステップと潜在的なトリガーを包括的分析によって識別する。
論文 参考訳(メタデータ) (2025-05-27T16:55:46Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。