論文の概要: Optimizing Grouped Convolutions on Edge Devices
- arxiv url: http://arxiv.org/abs/2006.09791v1
- Date: Wed, 17 Jun 2020 11:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:06:28.899407
- Title: Optimizing Grouped Convolutions on Edge Devices
- Title(参考訳): エッジデバイス上のグループ畳み込みの最適化
- Authors: Perry Gibson, Jos\'e Cano, Jack Turner, Elliot J. Crowley, Michael
O'Boyle, Amos Storkey
- Abstract要約: Grouped Space Pack Convolutions (GSPC) は、既存のソリューションよりも優れたグループ化された畳み込みの実装である。
我々は、エッジデバイス上で最先端のパフォーマンスを提供するテレビMにGSPCを実装した。
- 参考スコア(独自算出の注目度): 6.883305568568084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: When deploying a deep neural network on constrained hardware, it is possible
to replace the network's standard convolutions with grouped convolutions. This
allows for substantial memory savings with minimal loss of accuracy. However,
current implementations of grouped convolutions in modern deep learning
frameworks are far from performing optimally in terms of speed. In this paper
we propose Grouped Spatial Pack Convolutions (GSPC), a new implementation of
grouped convolutions that outperforms existing solutions. We implement GSPC in
TVM, which provides state-of-the-art performance on edge devices. We analyze a
set of networks utilizing different types of grouped convolutions and evaluate
their performance in terms of inference time on several edge devices. We
observe that our new implementation scales well with the number of groups and
provides the best inference times in all settings, improving the existing
implementations of grouped convolutions in TVM, PyTorch and TensorFlow Lite by
3.4x, 8x and 4x on average respectively. Code is available at
https://github.com/gecLAB/tvm-GSPC/
- Abstract(参考訳): 制約のあるハードウェアにディープニューラルネットワークをデプロイする場合、ネットワークの標準畳み込みをグループ畳み込みに置き換えることが可能である。
これにより、精度の低下を最小限に抑えることができる。
しかし、現代のディープラーニングフレームワークにおけるグループ型畳み込みの現在の実装は、速度の観点から最適に実行するには程遠い。
本稿では,既存ソリューションに勝るグループ化畳み込みの新たな実装であるgrouped spatial pack convolutions (gspc)を提案する。
我々は、エッジデバイス上で最先端のパフォーマンスを提供するテレビMにGSPCを実装した。
異なるタイプのグループ畳み込みを利用したネットワークの集合を分析し、複数のエッジデバイス上での推論時間の観点からそれらの性能を評価する。
新しい実装はグループ数によく適合しており、すべての設定で最高の推論時間を提供し、tvm、pytorch、tensorflow liteの既存のグループ畳み込みの実装を平均3.4倍、8倍、4倍改善しています。
コードはhttps://github.com/gecLAB/tvm-GSPC/で入手できる。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - Reduce Computational Complexity for Convolutional Layers by Skipping Zeros [9.833821501774596]
本稿では,畳み込みニューラルネットワークの効率的なアルゴリズムを提案する。
C-K-SアルゴリズムにはGPUの効率的な実装が伴っている。
実験により、C-K-Sは速度と収束の点で優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2023-06-28T06:21:22Z) - SMPConv: Self-moving Point Representations for Continuous Convolution [4.652175470883851]
本稿では,ニューラルネットワークを使わずに連続的な畳み込みを構築するための代替手法を提案する。
重みパラメータが自由に動く自己移動点表現と連続関数の実装にスキームを用いる。
その軽量な構造のため、我々はまず大規模な環境で連続的畳み込みの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-05T09:36:30Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR
Prediction [19.71671771503269]
深層学習における適応の族にスパース群ラッソの正規化子を追加する新しいフレームワークを開発する。
理論的に凸な設定では,収束保証が確立される。
提案手法は, 極めて優れた性能, 高い競争性能を達成できる。
論文 参考訳(メタデータ) (2021-07-30T05:33:43Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Exploiting Learned Symmetries in Group Equivariant Convolutions [20.63056707649319]
群同変畳み込み(GConvs)は、畳み込みニューラルネットワークを様々な変換群に同変させることができる。
我々は,GConvsを深層的に分離可能な畳み込みに効率的に分解できることを示す。
論文 参考訳(メタデータ) (2021-06-09T08:50:22Z) - Dynamic Group Convolution for Accelerating Convolutional Neural Networks [23.644124360336754]
本稿では,各グループ内で接続すべき入力チャネルのどの部分を適応的に選択する動的グループ畳み込み(DGC)を提案する。
複数のグループは、入力画像ごとに、豊富で相補的な視覚的/意味的特徴を適応的にキャプチャすることができる。
DGCは元のネットワーク構造を保持し、従来のグループ畳み込みと同様の計算効率を持つ。
論文 参考訳(メタデータ) (2020-07-08T16:35:44Z) - Conditional Convolutions for Instance Segmentation [109.2706837177222]
我々はCondInstと呼ばれるシンプルだが効果的なインスタンスセグメンテーションフレームワークを提案する。
インスタンスに条件付き動的インスタンス認識ネットワークを採用しています。
本稿では,精度と推論速度の両面で性能の向上を実現するための,より単純なインスタンス分割法を示す。
論文 参考訳(メタデータ) (2020-03-12T08:42:36Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。