Fugu-MT 論文翻訳(概要): Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity

論文の概要: Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity

arxiv url: http://arxiv.org/abs/2309.06626v1
Date: Tue, 12 Sep 2023 22:28:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 16:00:35.169620
Title: Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity
Title（参考訳）: 半構造化アクティベーションスパーシティによるディープニューラルネットワークの高速化
Authors: Matteo Grimaldi, Darshan C. Ganji, Ivan Lazarevich, Sudhakar Sah
Abstract要約: ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The demand for efficient processing of deep neural networks (DNNs) on embedded devices is a significant challenge limiting their deployment. Exploiting sparsity in the network's feature maps is one of the ways to reduce its inference latency. It is known that unstructured sparsity results in lower accuracy degradation with respect to structured sparsity but the former needs extensive inference engine changes to get latency benefits. To tackle this challenge, we propose a solution to induce semi-structured activation sparsity exploitable through minor runtime modifications. To attain high speedup levels at inference time, we design a sparse training procedure with awareness of the final position of the activations while computing the General Matrix Multiplication (GEMM). We extensively evaluate the proposed solution across various models for image classification and object detection tasks. Remarkably, our approach yields a speed improvement of $1.25 \times$ with a minimal accuracy drop of $1.1\%$ for the ResNet18 model on the ImageNet dataset. Furthermore, when combined with a state-of-the-art structured pruning method, the resulting models provide a good latency-accuracy trade-off, outperforming models that solely employ structured pruning techniques.
Abstract（参考訳）: 組み込みデバイス上でのディープニューラルネットワーク(DNN)の効率的な処理の要求は、デプロイメントを制限する重要な課題である。ネットワークの機能マップにおけるスパーシティの利用は、その推論遅延を減らす方法の1つです。非構造的なスパーシリティは、構造化されたスパーシリティに対して低い精度の劣化をもたらすことが知られているが、前者はレイテンシの利点を得るために広範な推論エンジンの変更を必要とする。この課題に取り組むため,我々は,半構造化アクティベーションスパーシティをマイナーなランタイム変更によって悪用する解決策を提案する。推定時に高いスピードアップレベルを達成するために,一般行列乗算(gemm)を計算しながら,アクティベーションの最終位置を意識したスパーストレーニング手順を設計する。画像分類や物体検出タスクの様々なモデルにおいて,提案手法を広範囲に評価する。注目すべきは、ImageNetデータセット上のResNet18モデルに対して、最小精度の1.1\%の1.25 \times$のスピード改善が得られることだ。さらに、最先端の構造化プルーニング手法と組み合わせることで、得られたモデルは、構造化プルーニング技術のみを用いる優れた遅延精度のトレードオフを提供する。

関連論文リスト

Lattice-Based Pruning in Recurrent Neural Networks via Poset Modeling [0.0]
リカレントニューラルネットワーク(RNN)はシーケンスモデリングタスクの中心であるが、その高い計算複雑性はスケーラビリティとリアルタイムデプロイメントの課題を引き起こす。本稿では,RNNを部分的に順序付けられた集合(命題)としてモデル化し,対応する依存格子を構成する新しいフレームワークを提案する。既約ニューロンを同定することにより、格子ベースのプルーニングアルゴリズムは、冗長なニューロンを除去しながら、重要な接続を選択的に保持する。
論文参考訳（メタデータ） (2025-02-23T10:11:38Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-03-21T02:33:37Z)
Split-Boost Neural Networks [1.1549572298362787]
本稿では,スプリットブートと呼ばれるフィードフォワードアーキテクチャの革新的なトレーニング戦略を提案する。このような新しいアプローチは、最終的に正規化項を明示的にモデル化することを避けることができる。提案した戦略は、ベンチマーク医療保険設計問題内の実世界の(匿名化された)データセットでテストされる。
論文参考訳（メタデータ） (2023-09-06T17:08:57Z)
A Generalization of Continuous Relaxation in Structured Pruning [0.3277163122167434]
トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いて, 構造化プルーニングを一般化する。結果のCNNは計算コストのかかるスパース行列演算を使わずにGPUハードウェア上で効率的に実行される。
論文参考訳（メタデータ） (2023-08-28T14:19:13Z)
Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文参考訳（メタデータ） (2023-03-16T21:06:13Z)
Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文参考訳（メタデータ） (2022-12-25T15:40:05Z)
Controlled Sparsity via Constrained Optimization or: How I Learned to Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文参考訳（メタデータ） (2022-08-08T21:24:20Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文参考訳（メタデータ） (2021-09-01T03:41:31Z)
Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文参考訳（メタデータ） (2020-06-22T10:57:43Z)
An Image Enhancing Pattern-based Sparsity for Real-time Inference on Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文参考訳（メタデータ） (2020-01-20T16:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。