論文の概要: Dynamic Network Adaptation at Inference
- arxiv url: http://arxiv.org/abs/2204.08400v1
- Date: Mon, 18 Apr 2022 16:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 17:06:45.599426
- Title: Dynamic Network Adaptation at Inference
- Title(参考訳): 推論における動的ネットワーク適応
- Authors: Daniel Mendoza, Caroline Trippel
- Abstract要約: 本稿では,参照クエリ毎に動的にノードをドロップアウトするSLO-Aware Neural Networksを提案する。
SLO対応ニューラルネットワークは、平均スピードアップを1.3~56.7時間で達成し、精度損失は0.3%以下である。
- 参考スコア(独自算出の注目度): 1.4714363258649004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) inference is a real-time workload that must comply with
strict Service Level Objectives (SLOs), including latency and accuracy targets.
Unfortunately, ensuring that SLOs are not violated in inference-serving systems
is challenging due to inherent model accuracy-latency tradeoffs, SLO diversity
across and within application domains, evolution of SLOs over time,
unpredictable query patterns, and co-location interference. In this paper, we
observe that neural networks exhibit high degrees of per-input activation
sparsity during inference. . Thus, we propose SLO-Aware Neural Networks which
dynamically drop out nodes per-inference query, thereby tuning the amount of
computation performed, according to specified SLO optimization targets and
machine utilization. SLO-Aware Neural Networks achieve average speedups of
$1.3-56.7\times$ with little to no accuracy loss (less than 0.3%). When
accuracy constrained, SLO-Aware Neural Networks are able to serve a range of
accuracy targets at low latency with the same trained model. When latency
constrained, SLO-Aware Neural Networks can proactively alleviate latency
degradation from co-location interference while maintaining high accuracy to
meet latency constraints.
- Abstract(参考訳): 機械学習(ML)推論は、レイテンシや精度の目標を含む厳しいサービスレベルオブジェクト(SLO)に従わなければならないリアルタイムワークロードである。
残念ながら、SLOが推論処理システムに違反しないことを保証することは、固有のモデル精度とレイテンシのトレードオフ、アプリケーションドメイン内および内部におけるSLOの多様性、時間経過に伴うSLOの進化、予測不可能なクエリパターン、コロケーション干渉など、難しい。
本稿では,ニューラルネットワークが推論中に高次入力毎の活性化間隔を示すことを観察する。
.
そこで本研究では,特定のSLO最適化目標とマシン利用量に基づいて,参照クエリ毎にノードを動的にドロップアウトし,処理量を調整するSLO対応ニューラルネットワークを提案する。
SLO-Aware Neural Networksは平均速度を1.3-56.7\times$で、精度損失は0.3%以下である。
精度が制約された場合、SLO-Aware Neural Networksは同じトレーニングモデルで低レイテンシで、さまざまな精度ターゲットを提供することができる。
レイテンシが制約された場合、SLO-Aware Neural Networksは、レイテンシ制約を満たすために高い精度を維持しながら、コロケーション干渉によるレイテンシ劣化を積極的に軽減することができる。
関連論文リスト
- Domain-decoupled Physics-informed Neural Networks with Closed-form Gradients for Fast Model Learning of Dynamical Systems [2.8730926763860687]
物理インフォームドニューラルネットワーク(PINN)は、物理方程式を用いて訓練され、データから学習することで、モデル化されていない効果を組み込むことができる。
本稿では、大規模で複雑な非線形力学系を扱う場合のPINCの現在の限界に対処するために、ドメイン分離された物理情報ニューラルネットワーク(DD-PINN)を導入する。
論文 参考訳(メタデータ) (2024-08-27T10:54:51Z) - Direct Training Needs Regularisation: Anytime Optimal Inference Spiking Neural Network [23.434563009813218]
スパイキングニューラルネットワーク(SNN)は,次世代のニューラルネットワーク(ANN)として認識される
空間時間正規化(STR)と呼ばれる新しい正規化手法を導入する。
STRは各段階におけるスパイクの強さと膜電位の比を調節する。
これは、トレーニング中の空間的および時間的パフォーマンスを効果的にバランスさせ、最終的にはAnytime Optimal Inference (AOI) SNNとなる。
論文 参考訳(メタデータ) (2024-04-15T15:57:01Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。
トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文 参考訳(メタデータ) (2024-03-23T04:18:49Z) - TopSpark: A Timestep Optimization Methodology for Energy-Efficient
Spiking Neural Networks on Autonomous Mobile Agents [14.916996986290902]
スパイキングニューラルネットワーク(SNN)は、スパース計算と効率的なオンライン学習による低消費電力/エネルギー処理を提供する。
TopSparkは、適応タイムステップの削減を利用して、トレーニングと推論の両方でエネルギー効率の良いSNN処理を可能にする新しい手法である。
論文 参考訳(メタデータ) (2023-03-03T10:20:45Z) - Fast Exploration of the Impact of Precision Reduction on Spiking Neural
Networks [63.614519238823206]
ターゲットハードウェアがコンピューティングの端に達すると、スパイキングニューラルネットワーク(SNN)が実用的な選択となる。
我々は、近似誤差を伝播するそのようなモデルの能力を生かした探索手法を開発するために、インターヴァル算術(IA)モデルを用いる。
論文 参考訳(メタデータ) (2022-11-22T15:08:05Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - lpSpikeCon: Enabling Low-Precision Spiking Neural Network Processing for
Efficient Unsupervised Continual Learning on Autonomous Agents [14.916996986290902]
効率的な教師なし連続学習のための低精度SNN処理を可能にする新しい手法であるlpSpikeConを提案する。
我々のlpSpikeConは、教師なし連続学習によるオンライントレーニングを行うために、SNNモデルの重量記憶を8倍(すなわち、4ビットの重みを司法的に採用することで)削減することができる。
論文 参考訳(メタデータ) (2022-05-24T18:08:16Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - STDPG: A Spatio-Temporal Deterministic Policy Gradient Agent for Dynamic
Routing in SDN [6.27420060051673]
ソフトウェア定義ネットワーク(SDN)における動的ルーティングは、集中的な意思決定問題と見なすことができる。
本稿では,SDNにおける動的ルーティングのための新しいモデルフリーフレームワークを提案する。
STDPGは、平均的なエンドツーエンド遅延の観点から、より良いルーティングソリューションを実現する。
論文 参考訳(メタデータ) (2020-04-21T07:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。