論文の概要: Distilled Large Language Model in Confidential Computing Environment for System-on-Chip Design
- arxiv url: http://arxiv.org/abs/2507.16226v1
- Date: Tue, 22 Jul 2025 04:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.966323
- Title: Distilled Large Language Model in Confidential Computing Environment for System-on-Chip Design
- Title(参考訳): システム・オン・チップ設計のための信頼計算環境における拡張大言語モデル
- Authors: Dong Ben, Hui Feng, Qian Wang,
- Abstract要約: 大規模言語モデル(LLM)は、回路設計タスクでますます使われ、通常、複数の訓練を経ている。
トレーニングされたモデルと関連するトレーニングデータは、秘密の知的財産権(IP)と見なされ、露出から保護されなければならない。
Confidential Computingは、Trusted Execution Environments(TEEs)を通じてデータとモデルを保護するための有望なソリューションを提供する
- 参考スコア(独自算出の注目度): 7.768531937044881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used in circuit design tasks and have typically undergone multiple rounds of training. Both the trained models and their associated training data are considered confidential intellectual property (IP) and must be protected from exposure. Confidential Computing offers a promising solution to protect data and models through Trusted Execution Environments (TEEs). However, existing TEE implementations are not designed to support the resource-intensive nature of LLMs efficiently. In this work, we first present a comprehensive evaluation of the LLMs within a TEE-enabled confidential computing environment, specifically utilizing Intel Trust Domain Extensions (TDX). We constructed experiments on three environments: TEE-based, CPU-only, and CPU-GPU hybrid implementations, and evaluated their performance in terms of tokens per second. Our first observation is that distilled models, i.e., DeepSeek, surpass other models in performance due to their smaller parameters, making them suitable for resource-constrained devices. Also, in the quantized models such as 4-bit quantization (Q4) and 8-bit quantization (Q8), we observed a performance gain of up to 3x compared to FP16 models. Our findings indicate that for fewer parameter sets, such as DeepSeek-r1-1.5B, the TDX implementation outperforms the CPU version in executing computations within a secure environment. We further validate the results using a testbench designed for SoC design tasks. These validations demonstrate the potential of efficiently deploying lightweight LLMs on resource-constrained systems for semiconductor CAD applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、回路設計タスクでますます使われ、通常、複数の訓練を経ている。
トレーニングされたモデルと関連するトレーニングデータは、秘密の知的財産権(IP)と見なされ、露出から保護されなければならない。
Confidential Computingは、Trusted Execution Environments (TEEs)を通じてデータとモデルを保護するための有望なソリューションを提供する。
しかし、既存のTEE実装は、LLMのリソース集約的な性質を効率的にサポートするように設計されていない。
本稿では,Intel Trust Domain Extensions (TDX) を利用したTEE対応の秘密計算環境において,LLMの総合評価を行う。
我々は、TEEベース、CPUオンリー、CPU-GPUハイブリッド実装の3つの環境で実験を行い、その性能を毎秒トークンの観点から評価した。
私たちの最初の観察では、蒸留されたモデル、すなわちDeepSeekは、より小さいパラメータのために他のモデルよりも性能が優れており、リソースに制約のあるデバイスに適している。
また、4ビット量子化(Q4)や8ビット量子化(Q8)といった量子化モデルでは、FP16モデルと比較して最大3倍の性能向上が見られた。
この結果から,DeepSeek-r1-1.5B などのパラメータセットが少ない場合,TDX の実装は,セキュアな環境下での計算処理において,CPU バージョンよりも優れていることがわかった。
さらに、SoC設計タスク用に設計されたテストベンチを用いて結果を検証する。
これらの検証は、半導体CADアプリケーションのためのリソース制約付きシステムに軽量LCMを効率よく展開する可能性を示している。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-15T15:11:17Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Efficient Post-training Quantization with FP8 Formats [14.543387418837154]
本稿では,75のユニークなネットワークアーキテクチャにおけるFP8データフォーマットの学習後量子化の利点について検討する。
E4M3はNLPモデルに向いているが、E3M4はコンピュータビジョンタスクではE4M3よりはるかに優れている。
論文 参考訳(メタデータ) (2023-09-26T00:58:36Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Perun: Secure Multi-Stakeholder Machine Learning Framework with GPU
Support [1.5362025549031049]
Perunは機密のマルチステークホルダ機械学習のためのフレームワークである。
ハードウェアアクセラレータ(GPUなど)上でMLトレーニングを実行し、セキュリティ保証を提供する。
CIFAR-10と現実世界の医療データセットのMLトレーニング中に、Perunは161倍から1560倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2021-03-31T08:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。