論文の概要: Subgraph Stationary Hardware-Software Inference Co-Design
- arxiv url: http://arxiv.org/abs/2306.17266v1
- Date: Wed, 21 Jun 2023 16:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 13:59:50.052728
- Title: Subgraph Stationary Hardware-Software Inference Co-Design
- Title(参考訳): サブグラフ定置ハードウェア推論共同設計
- Authors: Payman Behnam, Jianming Tong, Alind Khare, Yangyu Chen, Yue Pan,
Pranav Gadikar, Abhimanyu Rajeshkumar Bambhaniya, Tushar Krishna, Alexey
Tumanov
- Abstract要約: 成長中の研究機関は、機械学習モデルのレイテンシ-正確性トレードオフの改善に重点を置いている。
ひとつの静的ポイントが最適でない動的に変化するデプロイメントシナリオで動作しているアプリケーションのケースを作成します。
我々は、SushiAccelにおけるSGSの実実装と、どのSubNetを提供するか、何をリアルタイムにキャッシュするかを制御するソフトウェアスケジューラSushiSchedを実装したハードウェア-ソフトウェア共同設計アプローチを採用する。
- 参考スコア(独自算出の注目度): 11.17417275752636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing number of applications depend on Machine Learning (ML)
functionality and benefits from both higher quality ML predictions and better
timeliness (latency) at the same time. A growing body of research in computer
architecture, ML, and systems software literature focuses on reaching better
latency-accuracy tradeoffs for ML models. Efforts include compression,
quantization, pruning, early-exit models, mixed DNN precision, as well as ML
inference accelerator designs that minimize latency and energy, while
preserving delivered accuracy. All of them, however, yield improvements for a
single static point in the latency-accuracy tradeoff space. We make a case for
applications that operate in dynamically changing deployment scenarios, where
no single static point is optimal. We draw on a recently proposed weight-shared
SuperNet mechanism to enable serving a stream of queries that uses (activates)
different SubNets within this weight-shared construct. This creates an
opportunity to exploit the inherent temporal locality with our proposed
SubGraph Stationary (SGS) optimization. We take a hardware-software co-design
approach with a real implementation of SGS in SushiAccel and the implementation
of a software scheduler SushiSched controlling which SubNets to serve and what
to cache in real-time. Combined, they are vertically integrated into SUSHI-an
inference serving stack. For the stream of queries, SUSHI yields up to 25%
improvement in latency, 0.98% increase in served accuracy. SUSHI can achieve up
to 78.7% off-chip energy savings.
- Abstract(参考訳): 多くのアプリケーションは機械学習(ML)機能に依存しており、高品質なML予測とより良いタイムライン(レイテンシ)の両方から恩恵を受けている。
コンピュータアーキテクチャ、ML、システムソフトウェアに関する研究の活発化は、MLモデルのレイテンシ-精度トレードオフの改善に焦点を当てている。
圧縮、量子化、プルーニング、アーリーエグジットモデル、混合DNN精度、納入精度を保ちながらレイテンシとエネルギを最小化するML推論アクセラレーション設計などである。
しかし、これらすべてがレイテンシー-精度トレードオフ空間における単一の静的ポイントの改善をもたらす。
ひとつの静的ポイントが最適でない動的に変化するデプロイメントシナリオで動作しているアプリケーションのケースを作成します。
我々は、最近提案された重み付きSuperNetメカニズムを利用して、重み付き構造内で異なるSubNetを使用するクエリのストリームを提供する。
これにより、提案したSubGraph Stationary (SGS) 最適化により、時間的局所性を利用する機会が生まれる。
我々は、SushiAccelにおけるSGSの実実装と、どのSubNetを提供するか、何をリアルタイムにキャッシュするかを制御するソフトウェアスケジューラSushiSchedを実装したハードウェア-ソフトウェア共同設計アプローチを採用する。
合わせて寿司屋に垂直に統合される。
問合せのストリームでは、寿司のレイテンシが最大25%向上し、サービス精度が0.98%向上している。
SUSHIは最大78.7%のオフチップエネルギーを節約できる。
関連論文リスト
- Quamba: A Post-Training Quantization Recipe for Selective State Space Models [8.924779222965798]
State Space Models (SSM) は、大きな言語モデルのためのTransformerに代わる魅力的な代替品として登場した。
本研究では,入力アクティベーションの最大値を選択的SSMに抑制する静的8ビットSSM量子化法を提案する。
8ビットのウェイトアクティベーションを量子化したMamba 2.8B SSMはハードウェアアクセラレーションの恩恵を受け、Nvidia Orin Nano 8Gでは1.72倍のレイテンシを実現しています。
論文 参考訳(メタデータ) (2024-10-17T05:32:33Z) - Co-designing a Sub-millisecond Latency Event-based Eye Tracking System with Submanifold Sparse CNN [8.613703056677457]
アイトラッキング技術は多くの消費者向けエレクトロニクスアプリケーション、特に仮想現実および拡張現実(VR/AR)において不可欠である
しかし、これらすべての面で最適なパフォーマンスを達成することは、非常に難しい課題である。
我々は,この課題に,システムとイベントカメラを併用したシナジスティックなソフトウェア/ハードウェアの共同設計を通じて対処する。
本システムでは,81%のp5精度,99.5%のp10精度,および3.71のMeanean Distanceを0.7msのレイテンシで実現し,1推論あたり2.29mJしか消費しない。
論文 参考訳(メタデータ) (2024-04-22T15:28:42Z) - SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads [18.461201610784077]
ML推論サービスシステムは、アプリケーションのレイテンシと精度要件のバランスをとる必要がある。
SubNetActは、レイテンシーと精度のトレードオフ空間にまたがるあらゆるモデルに対して同時に機能することを示す。
SubNetActは、従来の最先端モデルよりもはるかに多くのモデルを提供するために、最大2.6倍のメモリを必要とすることを示す。
論文 参考訳(メタデータ) (2023-12-27T22:24:11Z) - Low-Latency ML Inference by Grouping Correlated Data Objects and
Computation [0.20482269513546453]
アプリケーション固有のデータアクセス相関を簡単に表現できる新しい相関グルーピング機構を提案する。
レイテンシに敏感なMLベースのアプリケーションに基づく実験は、標準手法の限界を確認する。
提案するメカニズムは,作業負荷の増加とスケールアウトの増加に伴い,レイテンシの大幅な低減,ノード利用率の向上を実現している。
論文 参考訳(メタデータ) (2023-11-30T16:02:04Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Joint Channel and Weight Pruning for Model Acceleration on Moblie
Devices [37.51092726022731]
プルーニングは、計算資源の消費と精度のバランスをとるために広く採用されているプラクティスである。
We present a unified framework with Joint Channel pruning and Weight pruning (JCW)。
本稿では,JCW フレームワークに最適化された多目的進化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-15T11:18:42Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。