論文の概要: Scalable GPU-Based Integrity Verification for Large Machine Learning Models
- arxiv url: http://arxiv.org/abs/2510.23938v1
- Date: Mon, 27 Oct 2025 23:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.623256
- Title: Scalable GPU-Based Integrity Verification for Large Machine Learning Models
- Title(参考訳): 大規模機械学習モデルのためのスケーラブルGPUベースの積分検証
- Authors: Marcin Spoczynski, Marcela S. Melara,
- Abstract要約: 我々は、CPUとGPUプラットフォーム間の整合性保護を標準化することで、分散機械学習を強化するセキュリティフレームワークを提案する。
提案手法は,GPUアクセラレータ上での大規模なMLモデル実行と直接的に整合性検証を行う。
私たちは、基盤となるCPUやGPUインフラストラクチャに関係なく、エンタープライズチームがデプロイできるハードウェアに依存しない基盤を提供します。
- 参考スコア(独自算出の注目度): 4.301162531343759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a security framework that strengthens distributed machine learning by standardizing integrity protections across CPU and GPU platforms and significantly reducing verification overheads. Our approach co-locates integrity verification directly with large ML model execution on GPU accelerators, resolving the fundamental mismatch between how large ML workloads typically run (primarily on GPUs) and how security verifications traditionally operate (on separate CPU-based processes), delivering both immediate performance benefits and long-term architectural consistency. By performing cryptographic operations natively on GPUs using dedicated compute units (e.g., Intel Arc's XMX units, NVIDIA's Tensor Cores), our solution eliminates the potential architectural bottlenecks that could plague traditional CPU-based verification systems when dealing with large models. This approach leverages the same GPU-based high-memory bandwidth and parallel processing primitives that power ML workloads ensuring integrity checks keep pace with model execution even for massive models exceeding 100GB. This framework establishes a common integrity verification mechanism that works consistently across different GPU vendors and hardware configurations. By anticipating future capabilities for creating secure channels between trusted execution environments and GPU accelerators, we provide a hardware-agnostic foundation that enterprise teams can deploy regardless of their underlying CPU and GPU infrastructures.
- Abstract(参考訳): 我々は、CPUとGPUプラットフォーム間の整合性保護を標準化し、検証オーバーヘッドを大幅に削減することで、分散機械学習を強化するセキュリティフレームワークを提案する。
当社のアプローチは、GPUアクセラレータ上での大規模なMLモデル実行と直接的な整合性検証を併用することで、大規模なMLワークロードが(主にGPU上で)どのように実行されるか、セキュリティ検証が従来(別々のCPUベースのプロセス上で)どのように動作するかという根本的なミスマッチを解消し、即時のパフォーマンスメリットと長期的アーキテクチャ整合性の両方を提供する。
専用計算ユニット(Intel ArcのXMXユニット、NVIDIAのTensor Coresなど)を使用してGPU上でネイティブに暗号化操作を実行することで、当社のソリューションは、大規模なモデルを扱う際に従来のCPUベースの検証システムを悩ませる可能性のある、潜在的なアーキテクチャ上のボトルネックを取り除くことができる。
このアプローチでは、GPUベースの高メモリ帯域幅と並列処理プリミティブを活用して、100GBを超える大規模モデルであっても、整合性チェックがモデル実行に追随することを保証します。
このフレームワークは、さまざまなGPUベンダとハードウェア構成で一貫して動作する共通の整合性検証メカニズムを確立する。
信頼された実行環境とGPUアクセラレーターの間のセキュアなチャネルを作成する将来的な能力を期待することで、エンタープライズチームが基盤となるCPUやGPUインフラストラクチャに関係なくデプロイできる、ハードウェアに依存しない基盤を提供します。
関連論文リスト
- ShadowScope: GPU Monitoring and Validation via Composable Side Channel Signals [6.389108369952326]
GPUカーネルは、従来のメモリ安全性問題と新たなマイクロアーキテクチャ脅威の両方に対して脆弱である。
構成可能なゴールデンモデルを活用した監視・検証フレームワークであるShadowScopeを提案する。
また、GPUパイプラインに軽量のオンチップチェックを統合するハードウェア支援のバリデーションメカニズムであるShadowScope+も導入しています。
論文 参考訳(メタデータ) (2025-08-30T01:38:05Z) - HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference [8.826966369389893]
大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。
我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。
さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-03T20:20:33Z) - MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。
これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。
我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-07T14:49:22Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Project CGX: Scalable Deep Learning on Commodity GPUs [17.116792714097738]
本稿では,ハードウェアオーバープロビジョンがアルゴリズムとシステム設計によって置き換えられるかを検討する。
本稿では,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。
このフレームワークは、コンシューマグレードのマルチGPUシステムから通信ボトルネックを取り除くことができる。
論文 参考訳(メタデータ) (2021-11-16T17:00:42Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。