論文の概要: When Forgetting Builds Reliability: LLM Unlearning for Reliable Hardware Code Generation
- arxiv url: http://arxiv.org/abs/2512.05341v1
- Date: Fri, 05 Dec 2025 00:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.855145
- Title: When Forgetting Builds Reliability: LLM Unlearning for Reliable Hardware Code Generation
- Title(参考訳): ビルドの信頼性: 信頼性の高いハードウェアコード生成のためのLLMアンラーニング
- Authors: Yiwen Liang, Qiufeng Li, Shikai Wang, Weidong Cao,
- Abstract要約: 大規模言語モデル(LLM)は、自動コード生成によってデジタルハードウェア設計を加速する可能性を示している。
LLMベースのハードウェアコード生成に適した新しいアンラーニングフレームワークを提案する。
本手法は,(i) ハードウェアコードの構造的整合性を保護する構文保存型アンラーニング戦略と,(ii) 問題知識の正確かつ効率的な除去を可能にするきめ細かなフロア・アウェア選択損失を組み合わせたものである。
- 参考スコア(独自算出の注目度): 2.2969149410683394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong potential in accelerating digital hardware design through automated code generation. Yet, ensuring their reliability remains a critical challenge, as existing LLMs trained on massive heterogeneous datasets often exhibit problematic memorization of proprietary intellectual property (IP), contaminated benchmarks, and unsafe coding patterns. To mitigate these risks, we propose a novel unlearning framework tailored for LLM-based hardware code generation. Our method combines (i) a syntax-preserving unlearning strategy that safeguards the structural integrity of hardware code during forgetting, and (ii) a fine-grained floor-aware selective loss that enables precise and efficient removal of problematic knowledge. This integration achieves effective unlearning without degrading LLM code generation capabilities. Extensive experiments show that our framework supports forget sets up to 3x larger, typically requiring only a single training epoch, while preserving both syntactic correctness and functional integrity of register-transfer level (RTL) codes. Our work paves an avenue towards reliable LLM-assisted hardware design.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動コード生成によってデジタルハードウェア設計を加速する可能性を示している。
しかし、巨大な異種データセットでトレーニングされた既存のLLMは、プロプライエタリな知的財産権(IP)、汚染されたベンチマーク、安全でないコーディングパターンの問題を記憶していることが多いため、信頼性の確保は依然として重要な課題である。
これらのリスクを軽減するために,LLMベースのハードウェアコード生成に適した新しいアンラーニングフレームワークを提案する。
我々の方法が組み合わさる
一 忘れたときのハードウェアコードの構造的整合性を保護するための構文保存未学習戦略
(二)問題知識の正確かつ効率的な除去を可能にする、きめ細かいフロア・アウェア選択損失。
この統合は、LLMコード生成能力を低下させることなく、効果的なアンラーニングを実現する。
大規模な実験により、我々のフレームワークは最大3倍のデータセットをサポートし、通常は1つのトレーニングエポックしか必要とせず、構文的正当性とレジスタ-トランスファーレベル(RTL)コードの機能的整合性の両方を保っていることがわかった。
我々の研究は、信頼性の高いLCM支援ハードウェア設計への道のりを歩む。
関連論文リスト
- A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - LLM-IFT: LLM-Powered Information Flow Tracking for Secure Hardware [0.0]
情報フロー追跡(IFT)は、ハードウェアの機密性や整合性を損なう可能性のある不正な活動を特定するために用いられる。
従来のIFT手法はスケーラビリティと適応性に苦慮し、大規模ハードウェアの適用性を制限するボトルネックをトレースする。
本稿では,ハードウェアにおけるIFTプロセスの実現のために,大規模言語モデル (LLM) を統合した LLM-IFT を提案する。
論文 参考訳(メタデータ) (2025-04-09T16:32:13Z) - TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation [10.597643264309415]
TFHE (Homomorphic Encryption over the Torus) は、復号化せずにデータを暗号化する。
マシンラーニングのプライバシ保護、セキュアなマルチパーティ計算、プライベートブロックチェーントランザクション、セキュアな医療診断といった可能性にもかかわらず、暗号化の複雑さとユーザビリティの問題により、その採用は制限されている。
この研究は、TFHEコード生成の最初のベンチマークを確立し、ドメイン固有のフィードバックで拡張されたLLMが、FHEコード生成の専門的ギャップを埋める方法を示している。
論文 参考訳(メタデータ) (2025-03-15T17:57:44Z) - Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。
本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文 参考訳(メタデータ) (2025-02-19T17:53:59Z) - RTL-Breaker: Assessing the Security of LLMs against Backdoor Attacks on HDL Code Generation [17.53405545690049]
大規模言語モデル(LLM)は、ハードウェア設計のためのコード生成/補完タスクにおいて顕著な可能性を示している。
LLMはいわゆるデータ中毒やバックドア攻撃の影響を受けやすい。
ここでは、攻撃者はトレーニングデータに対して悪意のあるコードを注入し、LLMによって生成されたHDLコードに渡すことができる。
論文 参考訳(メタデータ) (2024-11-26T16:31:18Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。