論文の概要: SafeTune: Mitigating Data Poisoning in LLM Fine-Tuning for RTL Code Generation
- arxiv url: http://arxiv.org/abs/2604.27238v1
- Date: Wed, 29 Apr 2026 22:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.826177
- Title: SafeTune: Mitigating Data Poisoning in LLM Fine-Tuning for RTL Code Generation
- Title(参考訳): SafeTune: RTLコード生成のためのLLMファインチューニングにおけるデータポリシの緩和
- Authors: Mahshid Rezakhani, Nowfel Mashnoor, Kimia Azar, Hadi Kamali,
- Abstract要約: 大規模言語モデル(LLM)は、RTLコード生成のようなハードウェアタスクのために微調整されている。
LLMはセキュリティ検証を欠くことが多く、データ中毒の攻撃を受けやすい。
LLMをベースとしたRTL生成を強固にするためのフレームワークであるSafeTuneを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly fine-tuned for hardware tasks like RTL code generation, the scarcity of high-quality datasets often leads to the use of rapidly assembled or generated training data. These datasets frequently lack security verification and are highly susceptible to data poisoning attacks. Such poisoning can cause models to generate syntactically valid but insecure hardware modules that bypass standard functionality checks. To address this, we present SafeTune, a framework designed to harden LLM-based RTL generation against poisoning, specifically focusing on hardware Trojan (HT) insertion. SafeTune integrates two core components: (i) a Graph Neural Network (GNN) that models structural properties to identify anomalous circuitry patterns during fine-tuning, and (ii) a semantic verification module using text embeddings and an XGBoost classifier to assess prompt security. By coupling structural and semantic knowledge, SafeTune effectively filters poisoned inputs without sacrificing legitimate data. Experimental results demonstrate that SafeTune significantly enhances the robustness and reliability of LLM fine-tuning without requiring modifications to the underlying model architecture.
- Abstract(参考訳): 大規模言語モデル(LLM)は、RTLコード生成のようなハードウェアタスクのために微調整される傾向にあるため、高品質なデータセットの不足は、高速に組み立てられたあるいは生成されたトレーニングデータの使用につながることが多い。
これらのデータセットは、セキュリティ検証を欠くことが多く、データ中毒攻撃の影響を受けやすい。
このような中毒は、標準機能チェックをバイパスする、構文的に妥当だが安全でないハードウェアモジュールをモデルに生成させる可能性がある。
この問題を解決するために, SafeTune は LLM ベースの RTL 生成を強固にするためのフレームワークであり,特にハードウェアの Trojan (HT) 挿入に焦点を当てている。
SafeTuneは2つのコアコンポーネントを統合している。
(i)微調整中の異常回路パターンを識別する構造特性をモデル化するグラフニューラルネットワーク(GNN)
(ii)テキスト埋め込みとXGBoost分類器を用いたセマンティック検証モジュールにより,迅速なセキュリティ評価を行う。
構造的知識と意味的知識を結合することにより、SafeTuneは正当なデータを犠牲にすることなく、有毒な入力を効果的にフィルタリングする。
実験により, SafeTuneは, 基礎となるモデルアーキテクチャの変更を必要とせずに, LLM微調整の堅牢性と信頼性を著しく向上することを示した。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - MalDataGen: A Modular Framework for Synthetic Tabular Data Generation in Malware Detection [0.0]
MalDataGenは、モジュール型のディープラーニングモデルを使用して、高忠実な合成データを生成するためのオープンソースのフレームワークである。
そのフレキシブルな設計は、検出パイプラインへのシームレスな統合を可能にし、サイバーセキュリティアプリケーションのための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-11-01T02:08:58Z) - TypePilot: Leveraging the Scala Type System for Secure LLM-generated Code [46.747768845221735]
大規模言語モデル(LLM)は、様々なプログラミング言語のコード生成タスクにおいて顕著な習熟度を示している。
それらのアウトプットには微妙だが重要な脆弱性があり、セキュリティに敏感なシステムやミッションクリティカルなシステムにデプロイすると重大なリスクが生じる。
本稿では,LLM生成コードのセキュリティとロバスト性を高めるために設計されたエージェントAIフレームワークであるTypePilotを紹介する。
論文 参考訳(メタデータ) (2025-10-13T08:44:01Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment [24.364891513019444]
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。
本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。
実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2025-07-24T17:59:24Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - SafeTuneBed: A Toolkit for Benchmarking LLM Safety Alignment in Fine-Tuning [6.740032154591022]
ベンチマークとツールキットであるSafeTuneBedを導入し、微調整と防御の評価を統一する。
SafeTuneBedは、感情分析、質問回答、マルチステップ推論、オープンな命令タスクにまたがる、複数の微調整データセットの多様なリポジトリをキュレートする。
これは、アライメントステージの免疫、訓練中の安全ガード、訓練後の修復など、最先端の防衛の統合を可能にする。
論文 参考訳(メタデータ) (2025-05-31T19:00:58Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Secure Instruction and Data-Level Information Flow Tracking Model for RISC-V [0.0]
不正アクセス、障害注入、およびプライバシー侵害は、信頼できないアクターによる潜在的な脅威である。
本稿では,実行時セキュリティがシステム完全性を保護するために,IFT(Information Flow Tracking)技術を提案する。
本研究では,ハードウェアベース IFT 技術とゲートレベル IFT (GLIFT) 技術を統合したマルチレベル IFT モデルを提案する。
論文 参考訳(メタデータ) (2023-11-17T02:04:07Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。