論文の概要: GnetSeg: Semantic Segmentation Model Optimized on a 224mW CNN
Accelerator Chip at the Speed of 318FPS
- arxiv url: http://arxiv.org/abs/2101.10444v1
- Date: Sat, 9 Jan 2021 23:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 07:21:31.410445
- Title: GnetSeg: Semantic Segmentation Model Optimized on a 224mW CNN
Accelerator Chip at the Speed of 318FPS
- Title(参考訳): GnetSeg: 224mW CNN加速器チップ上で318FPSの速度で最適化されたセマンティックセグメンテーションモデル
- Authors: Baohua Sun, Weixiong Lin, Hao Sha, Jiapeng Su
- Abstract要約: 本稿では,CNNアクセラレータとホストCPU間のデータ転送の遅延を最小限に抑えるGnetSegモデルのマスクに対する整数符号化を提案する。
実験により、224mwチップで動くモデルは318fpsの速度を達成し、パーソンセグメンテーションなどの用途に優れた精度を示す。
- 参考スコア(独自算出の注目度): 7.78162383358657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is the task to cluster pixels on an image belonging to
the same class. It is widely used in the real-world applications including
autonomous driving, medical imaging analysis, industrial inspection, smartphone
camera for person segmentation and so on. Accelerating the semantic
segmentation models on the mobile and edge devices are practical needs for the
industry. Recent years have witnessed the wide availability of CNN
(Convolutional Neural Networks) accelerators. They have the advantages on power
efficiency, inference speed, which are ideal for accelerating the semantic
segmentation models on the edge devices. However, the CNN accelerator chips
also have the limitations on flexibility and memory. In addition, the CPU load
is very critical because the CNN accelerator chip works as a co-processor with
a host CPU. In this paper, we optimize the semantic segmentation model in order
to fully utilize the limited memory and the supported operators on the CNN
accelerator chips, and at the same time reduce the CPU load of the CNN model to
zero. The resulting model is called GnetSeg. Furthermore, we propose the
integer encoding for the mask of the GnetSeg model, which minimizes the latency
of data transfer between the CNN accelerator and the host CPU. The experimental
result shows that the model running on the 224mW chip achieves the speed of
318FPS with excellent accuracy for applications such as person segmentation.
- Abstract(参考訳): セマンティックセグメンテーションは、同じクラスに属する画像上にピクセルをクラスタ化するタスクである。
自動運転、医用画像分析、産業検査、パーソンセグメンテーション用のスマートフォンカメラなど、現実世界のアプリケーションで広く使われている。
モバイルとエッジデバイスにおけるセマンティクスセグメンテーションモデルを加速することは、業界にとって実用的なニーズである。
近年、CNN(Convolutional Neural Networks)アクセラレータが広く利用できるようになった。
それらは、エッジデバイス上のセマンティックセグメンテーションモデルを加速するのに理想的な電力効率、推論速度に利点がある。
しかし、CNNアクセラレータチップは、柔軟性とメモリにも制限がある。
さらに、CNNアクセラレータチップがホストCPUとのコプロセッサとして機能するため、CPU負荷は非常に重要である。
本稿では,CNNアクセラレータチップ上のメモリとサポート対象演算子を完全に活用するためにセマンティックセグメンテーションモデルを最適化し,同時にCNNモデルのCPU負荷をゼロにする。
結果として得られるモデルはGnetSegと呼ばれる。
さらに,cnnアクセラレータとホストcpu間のデータ転送のレイテンシを最小化するgnetsegモデルのマスクの整数符号化を提案する。
実験結果から,224mWチップ上で動作したモデルでは318FPSの高速化を実現し,人体セグメンテーションなどの応用に優れた精度が得られた。
関連論文リスト
- CNN Mixture-of-Depths [4.150676163661315]
畳み込みニューラルネットワーク(CNN)のためのMixture-of-Depths(MoD)
畳み込みニューラルネットワーク(CNN)のためのMixture-of-Depths(MoD)を紹介する。
論文 参考訳(メタデータ) (2024-09-25T15:19:04Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文 参考訳(メタデータ) (2023-02-14T13:35:15Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - A Joint Energy and Latency Framework for Transfer Learning over 5G
Industrial Edge Networks [53.26338041079138]
5G産業エッジネットワークのための転送学習対応エッジCNNフレームワークを提案する。
特に、エッジサーバは、既存の画像データセットを使用してcnnを事前トレーニングすることができる。
TLの助けを借りて、トレーニングに参加していないデバイスは、訓練されたエッジCNNモデルをスクラッチからトレーニングせずに微調整するだけです。
論文 参考訳(メタデータ) (2021-04-19T15:13:16Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - GnetDet: Object Detection Optimized on a 224mW CNN Accelerator Chip at
the Speed of 106FPS [10.644839299403612]
CPU負荷を最小限に抑え、CNNアクセラレータチップ上のオブジェクト検出モデルを最適化する。
実験結果から, 224mW チップ上で動作する GnetDet モデルは106FPS の速度を精度良く達成できることがわかった。
論文 参考訳(メタデータ) (2021-02-19T06:16:42Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network [0.0]
この論文はFPGAベースのCNNアクセラレーションの可能性を探るものである。
Zynq System-on-Chip上でのCNN実装の完全機能を示す。
論文 参考訳(メタデータ) (2020-05-14T11:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。