Fugu-MT 論文翻訳(概要): Accelerate Intermittent Deep Inference

論文の概要: Accelerate Intermittent Deep Inference

arxiv url: http://arxiv.org/abs/2407.14514v1
Date: Mon, 1 Jul 2024 20:15:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-28 18:39:09.780050
Title: Accelerate Intermittent Deep Inference
Title（参考訳）: 間欠的深部推論の高速化
Authors: Ziliang Zhang,
Abstract要約: 現代のトレンドは、Deep Neural Net (DNN) Modelsをバッテリレス断続的なデバイスで実行可能にすることに焦点を当てている。我々は,256KB未満を対象とする最適化推論モデルのパワーを活用し,間欠的パワー内でのスケジューリングと実行を可能にするために,高速化された間欠的深部推論を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emerging research in edge devices and micro-controller units (MCU) enables on-device computation of Deep Learning Training and Inferencing tasks. More recently, contemporary trends focus on making the Deep Neural Net (DNN) Models runnable on battery-less intermittent devices. One of the approaches is to shrink the DNN models by enabling weight sharing, pruning, and conducted Neural Architecture Search (NAS) with optimized search space to target specific edge devices \cite{Cai2019OnceFA} \cite{Lin2020MCUNetTD} \cite{Lin2021MCUNetV2MP} \cite{Lin2022OnDeviceTU}. Another approach analyzes the intermittent execution and designs the corresponding system by performing NAS that is aware of intermittent execution cycles and resource constraints \cite{iNAS} \cite{HW-NAS} \cite{iLearn}. However, the optimized NAS was only considering consecutive execution with no power loss, and intermittent execution designs only focused on balancing data reuse and costs related to intermittent inference and often with low accuracy. We proposed Accelerated Intermittent Deep Inference to harness the power of optimized inferencing DNN models specifically targeting SRAM under 256KB and make it schedulable and runnable within intermittent power. Our main contribution is: (1) Schedule tasks performed by on-device inferencing into intermittent execution cycles and optimize for latency; (2) Develop a system that can satisfy the end-to-end latency while achieving a much higher accuracy compared to baseline \cite{iNAS} \cite{HW-NAS}
Abstract（参考訳）: エッジデバイスとマイクロコントローラユニット(MCU)の研究は、ディープラーニングトレーニングと推論タスクのデバイス上での計算を可能にする。最近では、バッテリーレス断続的なデバイス上でDeep Neural Net(DNN)モデルを実行可能にすることに焦点を当てている。アプローチの1つは、ウェイトシェアリング、プルーニングを可能にしてDNNモデルを縮小し、特定のエッジデバイスをターゲットにした検索スペースを最適化したニューラルアーキテクチャサーチ(NAS)を実行したことである。別のアプローチでは、断続的な実行サイクルとリソース制約を意識したNASを実行することで、断続的な実行を解析し、対応するシステムを設計する。しかし、NASは出力損失のない連続的な実行のみを考慮し、間欠的な実行設計はデータの再利用と間欠的な推論に関連するコストのバランスにのみ焦点を絞った。我々は、256KB以下のSRAMを対象とするDNNモデルに最適化された参照DNNモデルのパワーを活用し、間欠的パワー内でスケジューリング可能で実行可能となるように、高速化された間欠的深部推論を提案する。 1) デバイス上でのインジェクションによるスケジュールタスクの断続実行サイクルへの実行とレイテンシの最適化 (2) ベースライン \cite{iNAS} \cite{HW-NAS} と比較してはるかに高い精度でエンドツーエンドのレイテンシを満足できるシステムを開発する。

関連論文リスト

Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Towards Low-latency Event-based Visual Recognition with Hybrid Step-wise Distillation Spiking Neural Networks [50.32980443749865]
スパイキングニューラルネットワーク(SNN)は、低消費電力と高い生物性のために大きな注目を集めている。現在のSNNは、ニューロモルフィックデータセットの正確性とレイテンシのバランスをとるのに苦労している。ニューロモルフィックデータセットに適したステップワイド蒸留法(HSD)を提案する。
論文参考訳（メタデータ） (2024-09-19T06:52:34Z)
Direct Training Needs Regularisation: Anytime Optimal Inference Spiking Neural Network [23.434563009813218]
スパイキングニューラルネットワーク(SNN)は,次世代のニューラルネットワーク(ANN)として認識される空間時間正規化(STR)と呼ばれる新しい正規化手法を導入する。 STRは各段階におけるスパイクの強さと膜電位の比を調節する。これは、トレーニング中の空間的および時間的パフォーマンスを効果的にバランスさせ、最終的にはAnytime Optimal Inference (AOI) SNNとなる。
論文参考訳（メタデータ） (2024-04-15T15:57:01Z)
LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-26T05:23:11Z)
Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision Quantization [1.0235078178220354]
本稿では, プルーニングと量子化を併用してハードウェアに配慮したディープニューラルネットワーク(DNN)の自動圧縮フレームワークを提案する。われわれのフレームワークはデータセットの平均エネルギー消費量を39%減らし、平均精度損失を1.7%減らし、最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2023-12-23T18:50:13Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
RoHNAS: A Neural Architecture Search Framework with Conjoint Optimization for Adversarial Robustness and Hardware Efficiency of Convolutional and Capsule Networks [10.946374356026679]
RoHNASは、Deep Neural Network(DNN)の対向ロバスト性とハードウェア効率を共同で最適化する新しいフレームワークである。探索時間を短縮するため、RoHNASはNASフローで使用するデータセット毎に、逆摂動の適切な値を分析し、選択する。
論文参考訳（メタデータ） (2022-10-11T09:14:56Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Energy-Efficient Model Compression and Splitting for Collaborative Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文参考訳（メタデータ） (2021-06-02T07:36:27Z)
Split Computing and Early Exiting for Deep Learning Applications: Survey and Research Challenges [18.103754866476088]
我々はスプリットコンピューティング(SC)とアーリーエグジット(EE)戦略における技術の現状を包括的に調査する。近年,ディープニューラルネットワークを,モバイルデバイスとエッジデバイスでそれぞれ実行されるヘッドモデルとテールモデルに分割する手法が提案されている。 EEは、アーキテクチャの初期に複数の"出口"を示すようにモデルを訓練し、それぞれが目標の精度をますます高めている。
論文参考訳（メタデータ） (2021-03-08T01:47:20Z)
Dynamic Hard Pruning of Neural Networks at the Edge of the Internet [11.605253906375424]
動的ハードプルーニング(DynHP)技術は、トレーニング中にネットワークを段階的にプルーニングする。 DynHPは、最終ニューラルネットワークの調整可能なサイズ削減と、トレーニング中のNNメモリ占有率の削減を可能にする。凍結メモリは、ハードプルーニング戦略による精度劣化を相殺するために、エンファンダイナミックバッチサイズアプローチによって再利用される。
論文参考訳（メタデータ） (2020-11-17T10:23:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。