論文の概要: AdaSpring: Context-adaptive and Runtime-evolutionary Deep Model
Compression for Mobile Applications
- arxiv url: http://arxiv.org/abs/2101.11800v1
- Date: Thu, 28 Jan 2021 03:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 12:07:33.238564
- Title: AdaSpring: Context-adaptive and Runtime-evolutionary Deep Model
Compression for Mobile Applications
- Title(参考訳): AdaSpring: モバイルアプリケーションのためのコンテキスト適応型およびランタイム進化型ディープモデル圧縮
- Authors: Sicong Liu, Bin Guo, Ke Ma, Zhiwen Yu, Junzhao Du
- Abstract要約: 本稿では,文脈適応型かつ自己進化型DNN圧縮フレームワークであるAdaSpringを紹介する。
実行時適応圧縮をオンラインでローカルに行うことができる。
実験の結果、AdaSpringは最大で3.1倍の遅延低減、DNNの4.2倍のエネルギー効率向上を実現している。
- 参考スコア(独自算出の注目度): 15.134752032646231
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There are many deep learning (e.g., DNN) powered mobile and wearable
applications today continuously and unobtrusively sensing the ambient
surroundings to enhance all aspects of human lives. To enable robust and
private mobile sensing, DNN tends to be deployed locally on the
resource-constrained mobile devices via model compression. The current practice
either hand-crafted DNN compression techniques, i.e., for optimizing
DNN-relative performance (e.g., parameter size), or on-demand DNN compression
methods, i.e., for optimizing hardware-dependent metrics (e.g., latency),
cannot be locally online because they require offline retraining to ensure
accuracy. Also, none of them have correlated their efforts with runtime
adaptive compression to consider the dynamic nature of the deployment context
of mobile applications. To address those challenges, we present AdaSpring, a
context-adaptive and self-evolutionary DNN compression framework. It enables
the runtime adaptive DNN compression locally online. Specifically, it presents
the ensemble training of a retraining-free and self-evolutionary network to
integrate multiple alternative DNN compression configurations (i.e., compressed
architectures and weights). It then introduces the runtime search strategy to
quickly search for the most suitable compression configurations and evolve the
corresponding weights. With evaluation on five tasks across three platforms and
a real-world case study, experiment outcomes show that AdaSpring obtains up to
3.1x latency reduction, 4.2 x energy efficiency improvement in DNNs, compared
to hand-crafted compression techniques, while only incurring <= 6.2ms
runtime-evolution latency.
- Abstract(参考訳): 現在、多くのディープラーニング(DNNなど)がモバイルおよびウェアラブルアプリケーションに使われており、人間の生活のあらゆる側面を強化するために周囲の環境を継続的に、控えめに感知している。
堅牢でプライベートなモバイルセンシングを可能にするため、DNNはモデル圧縮を通じてリソース制約のあるモバイルデバイスにローカルにデプロイされる傾向にある。
現在、手作りのDNN圧縮技術、すなわちDNN相対的性能(パラメータサイズなど)の最適化や、ハードウェア依存のメトリクス(例えばレイテンシ)の最適化といったオンデマンドDNN圧縮手法は、正確性を確保するためにオフラインリトレーニングを必要とするため、ローカルでは利用できない。
また、モバイルアプリケーションのデプロイメントコンテキストの動的な性質を考慮するために、ランタイム適応圧縮と彼らの取り組みを関連付けるものはない。
これらの課題に対処するため、コンテキスト適応的で自己進化的なDNN圧縮フレームワークであるAdaSpringを紹介します。
ランタイムアダプティブDNN圧縮をオンラインでローカルに行うことができる。
具体的には、複数の代替DNN圧縮構成(すなわち、圧縮されたアーキテクチャと重み)を統合するために、トレーニング不要で自己進化的なネットワークのアンサンブルトレーニングを示す。
次にランタイム検索戦略を導入し、最も適切な圧縮構成を素早く検索し、対応する重みを進化させる。
3つのプラットフォームにわたる5つのタスクの評価と実世界のケーススタディにより、実験の結果、AdaSpringはDNNの最大3.1倍のレイテンシ削減、4.2倍のエネルギー効率向上を実現している。
関連論文リスト
- Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。
FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文 参考訳(メタデータ) (2024-10-10T15:13:08Z) - Resource Constrained Model Compression via Minimax Optimization for
Spiking Neural Networks [11.19282454437627]
スパイキングニューラルネットワーク(SNN)は、イベント駆動型および高エネルギー効率ネットワークの特徴を持つ。
これらのネットワークをリソース制限されたエッジデバイスに直接展開することは困難である。
本稿では,このスパース学習問題に対するエンドツーエンドの Minimax 最適化手法を提案する。
論文 参考訳(メタデータ) (2023-08-09T02:50:15Z) - FrankenSplit: Efficient Neural Feature Compression with Shallow Variational Bottleneck Injection for Mobile Edge Computing [5.815300670677979]
資源依存型圧縮モデルのための新しいフレームワークを導入し,非対称環境下での手法を広範囲に評価する。
提案手法は精度を低下させることなく最先端のSC法よりも60%低く,既存の標準のオフロードよりも16倍高速である。
論文 参考訳(メタデータ) (2023-02-21T14:03:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - Incremental Training and Group Convolution Pruning for Runtime DNN
Performance Scaling on Heterogeneous Embedded Platforms [23.00896228073755]
Deep Neural Networksの推論は、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。
本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。
タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。
論文 参考訳(メタデータ) (2021-05-08T05:38:01Z) - A Survey on Deep Neural Network Compression: Challenges, Overview, and
Solutions [18.095948566754874]
Deep Neural Network(DNN)は、自動機能抽出機能により、前例のないパフォーマンスを実現している。
本稿では,DNNモデルの圧縮に関する既存の文献を概説する。
我々は,既存の手法を,DNNモデルを圧縮する機構に基づいて,ネットワークプルーニング,スパース表現,ビット精度,知識蒸留,雑多な5つのカテゴリに分割する。
論文 参考訳(メタデータ) (2020-10-05T13:12:46Z) - AdaDeep: A Usage-Driven, Automated Deep Model Compression Framework for
Enabling Ubiquitous Intelligent Mobiles [21.919700946676393]
我々はAdaDeepを提案し、パフォーマンスとリソースの制約の間の望ましいトレードオフについて検討する。
AdaDeepは18.6times$遅延低減、9.8times$エネルギー効率の改善、37.3times$DNNのストレージ削減を達成できる。
論文 参考訳(メタデータ) (2020-06-08T09:42:12Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。