論文の概要: Architecture Aware Latency Constrained Sparse Neural Networks
- arxiv url: http://arxiv.org/abs/2109.00170v1
- Date: Wed, 1 Sep 2021 03:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:23:02.322262
- Title: Architecture Aware Latency Constrained Sparse Neural Networks
- Title(参考訳): アーキテクチャを考慮したレイテンシ制約付きスパースニューラルネットワーク
- Authors: Tianli Zhao, Qinghao Hu, Xiangyu He, Weixiang Xu, Jiaxing Wang, Cong
Leng, Jian Cheng
- Abstract要約: 本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
- 参考スコア(独自算出の注目度): 35.50683537052815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acceleration of deep neural networks to meet a specific latency constraint is
essential for their deployment on mobile devices. In this paper, we design an
architecture aware latency constrained sparse (ALCS) framework to prune and
accelerate CNN models. Taking modern mobile computation architectures into
consideration, we propose Single Instruction Multiple Data (SIMD)-structured
pruning, along with a novel sparse convolution algorithm for efficient
computation. Besides, we propose to estimate the run time of sparse models with
piece-wise linear interpolation. The whole latency constrained pruning task is
formulated as a constrained optimization problem that can be efficiently solved
with Alternating Direction Method of Multipliers (ADMM). Extensive experiments
show that our system-algorithm co-design framework can achieve much better
Pareto frontier among network accuracy and latency on resource-constrained
mobile devices.
- Abstract(参考訳): 特定のレイテンシ制約を満たすためのディープニューラルネットワークの加速は、モバイルデバイスへのデプロイに不可欠である。
本稿では,アーキテクチャに配慮した遅延制約付きスパース(alcs)フレームワークを設計,cnnモデルを高速化する。
最新のモバイル計算アーキテクチャを考慮に入れ,効率的な計算のための新しいスパース畳み込みアルゴリズムとともに,Single Instruction Multiple Data (SIMD)-structured pruningを提案する。
さらに,線形補間によるスパースモデルの実行時間を推定する手法を提案する。
遅延制約付きプルーニングタスク全体は、alternating Direction Method of Multipliers (ADMM) で効率的に解ける制約付き最適化問題として定式化される。
広範な実験により,ネットワークの精度とリソース制約のあるモバイルデバイスのレイテンシにおいて,より優れたparetoフロンティアを実現することができた。
関連論文リスト
- Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Algorithm Unrolling for Massive Access via Deep Neural Network with
Theoretical Guarantee [30.86806523281873]
大規模アクセスはIoT(Internet of Things)ネットワークにおける重要な設計課題である。
我々は、マルチアンテナベースステーション(BS)と多数の単一アンテナIoTデバイスを備えたIoTネットワークの無許可アップリンク伝送を検討する。
本稿では,低計算複雑性と高ロバスト性を実現するために,ディープニューラルネットワークに基づく新しいアルゴリズムアンローリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T05:23:05Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。