論文の概要: Obsidian: Cooperative State-Space Exploration for Performant Inference on Secure ML Accelerators
- arxiv url: http://arxiv.org/abs/2409.02817v1
- Date: Wed, 4 Sep 2024 15:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 17:11:35.197209
- Title: Obsidian: Cooperative State-Space Exploration for Performant Inference on Secure ML Accelerators
- Title(参考訳): Obsidian: セキュアMLアクセラレータにおけるパフォーマンス推論のための協調的なステートスペース探索
- Authors: Sarbartha Banerjee, Shijia Wei, Prakash Ramrakhyani, Mohit Tiwari,
- Abstract要約: 本稿では,MLカーネルからセキュアなMLアクセラレータへの最適マッピングを見つけるための最適化フレームワークを提案する。
クラウドでは20.5%,エッジデプロイメントでは8.4%,エネルギ改善では24%,エネルギ改善では19%となっている。
サイクル精度モデルにより、クラウドでは9.1%、エッジでは12.2%のレイテンシが減少し、エネルギー効率は13.8%と13.1%になった。
- 参考スコア(独自算出の注目度): 1.688014412837638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trusted execution environments (TEEs) for machine learning accelerators are indispensable in secure and efficient ML inference. Optimizing workloads through state-space exploration for the accelerator architectures improves performance and energy consumption. However, such explorations are expensive and slow due to the large search space. Current research has to use fast analytical models that forego critical hardware details and cross-layer opportunities unique to the hardware security primitives. While cycle-accurate models can theoretically reach better designs, their high runtime cost restricts them to a smaller state space. We present Obsidian, an optimization framework for finding the optimal mapping from ML kernels to a secure ML accelerator. Obsidian addresses the above challenge by exploring the state space using analytical and cycle-accurate models cooperatively. The two main exploration components include: (1) A secure accelerator analytical model, that includes the effect of secure hardware while traversing the large mapping state space and produce the best m model mappings; (2) A compiler profiling step on a cycle-accurate model, that captures runtime bottlenecks to further improve execution runtime, energy and resource utilization and find the optimal model mapping. We compare our results to a baseline secure accelerator, comprising of the state-of-the-art security schemes obtained from guardnn [ 33 ] and sesame [11]. The analytical model reduces the inference latency by 20.5% for a cloud and 8.4% for an edge deployment with an energy improvement of 24% and 19% respectively. The cycle-accurate model, further reduces the latency by 9.1% for a cloud and 12.2% for an edge with an energy improvement of 13.8% and 13.1%.
- Abstract(参考訳): マシンラーニングアクセラレータのための信頼された実行環境(TEE)は、セキュアで効率的なML推論には不可欠である。
アクセラレータアーキテクチャのステートスペース探索によるワークロードの最適化は、パフォーマンスとエネルギー消費を改善する。
しかし、大規模な探索スペースのため、そのような探索は高価で遅い。
現在の研究では、ハードウェアの重要な詳細とハードウェアセキュリティプリミティブに特有の層間機会を予見する高速な分析モデルを使用する必要がある。
サイクル精度のモデルは理論的にはより良い設計に到達できるが、その実行コストが高いため、より小さな状態空間に制限される。
MLカーネルからセキュアなMLアクセラレータへの最適マッピングを見つけるための最適化フレームワークであるObsidianを提案する。
Obsidianは、分析モデルとサイクル精度モデルを用いて、状態空間を協調的に探索することで、上記の課題に対処する。
2) 実行時のボトルネックを捕捉し,実行時,エネルギ,資源利用を更に改善し,最適なモデルマッピングを求めるコンパイラプロファイリングステップ。
本研究の結果を,ガードン[33]とゴマ[11]から得られた最先端のセキュリティスキームからなる,ベースライン安全な加速器と比較した。
分析モデルは、クラウドでの推論遅延を20.5%減らし、エッジデプロイメントでは8.4%減らし、それぞれ24%と19%のエネルギー改善を実現している。
サイクル精度モデルにより、クラウドでは9.1%、エッジでは12.2%のレイテンシが減少し、エネルギー効率は13.8%と13.1%になった。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Better YOLO with Attention-Augmented Network and Enhanced Generalization Performance for Safety Helmet Detection [16.09131958448249]
本稿では,GhostNetv2に基づく軽量な特徴抽出ネットワークのバックボーンを組み込むことにより,新しいアプローチを提案する。
安全クリティカルな環境では、安全ヘルメットの正確な検出と速度は、作業上の危険を防止し、安全プロトコルの遵守を確保する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-05-04T07:13:47Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。
私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。
提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文 参考訳(メタデータ) (2023-11-04T10:38:21Z) - DiffNAS: Bootstrapping Diffusion Models by Prompting for Better
Architectures [63.12993314908957]
そこで我々は,DiffNASと呼ばれるベースモデル探索手法を提案する。
GPT-4をスーパーネットとして利用して検索を高速化し,検索メモリを補足して結果を向上する。
厳密な実験により,GPTに基づくシナリオでは,探索効率を2倍に向上できることが示された。
論文 参考訳(メタデータ) (2023-10-07T09:10:28Z) - E2E-LOAD: End-to-End Long-form Online Action Detection [21.487123649693114]
オンライン行動検出(OAD)の課題に対処するため、E2E-LOADと呼ばれる最初のエンドツーエンドOADモデルを提案する。
具体的には,提案手法はすべてのフレームで共有される初期空間モデルを採用し,計算コストの低い推論のための長いシーケンスキャッシュを維持する。
論文 参考訳(メタデータ) (2023-06-13T11:41:15Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - CODEBench: A Neural Architecture and Hardware Accelerator Co-Design
Framework [4.5259990830344075]
この研究は、CODEBenchと呼ばれる新しいニューラルアーキテクチャとハードウェアアクセラレーターの共同設計フレームワークを提案する。
CNNBenchとAccelBenchという2つの新しいベンチマークサブフレームワークで構成されており、畳み込みニューラルネットワーク(CNN)とCNNアクセラレーターの拡張設計空間を探索している。
論文 参考訳(メタデータ) (2022-12-07T21:38:03Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。