Fugu-MT 論文翻訳(概要): GnetSeg: Semantic Segmentation Model Optimized on a 224mW CNN Accelerator Chip at the Speed of 318FPS

論文の概要: GnetSeg: Semantic Segmentation Model Optimized on a 224mW CNN Accelerator Chip at the Speed of 318FPS

arxiv url: http://arxiv.org/abs/2101.10444v1
Date: Sat, 9 Jan 2021 23:11:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-09 07:21:31.410445
Title: GnetSeg: Semantic Segmentation Model Optimized on a 224mW CNN Accelerator Chip at the Speed of 318FPS
Title（参考訳）: GnetSeg: 224mW CNN加速器チップ上で318FPSの速度で最適化されたセマンティックセグメンテーションモデル
Authors: Baohua Sun, Weixiong Lin, Hao Sha, Jiapeng Su
Abstract要約: 本稿では,CNNアクセラレータとホストCPU間のデータ転送の遅延を最小限に抑えるGnetSegモデルのマスクに対する整数符号化を提案する。実験により、224mwチップで動くモデルは318fpsの速度を達成し、パーソンセグメンテーションなどの用途に優れた精度を示す。
参考スコア（独自算出の注目度）: 7.78162383358657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic segmentation is the task to cluster pixels on an image belonging to the same class. It is widely used in the real-world applications including autonomous driving, medical imaging analysis, industrial inspection, smartphone camera for person segmentation and so on. Accelerating the semantic segmentation models on the mobile and edge devices are practical needs for the industry. Recent years have witnessed the wide availability of CNN (Convolutional Neural Networks) accelerators. They have the advantages on power efficiency, inference speed, which are ideal for accelerating the semantic segmentation models on the edge devices. However, the CNN accelerator chips also have the limitations on flexibility and memory. In addition, the CPU load is very critical because the CNN accelerator chip works as a co-processor with a host CPU. In this paper, we optimize the semantic segmentation model in order to fully utilize the limited memory and the supported operators on the CNN accelerator chips, and at the same time reduce the CPU load of the CNN model to zero. The resulting model is called GnetSeg. Furthermore, we propose the integer encoding for the mask of the GnetSeg model, which minimizes the latency of data transfer between the CNN accelerator and the host CPU. The experimental result shows that the model running on the 224mW chip achieves the speed of 318FPS with excellent accuracy for applications such as person segmentation.
Abstract（参考訳）: セマンティックセグメンテーションは、同じクラスに属する画像上にピクセルをクラスタ化するタスクである。自動運転、医用画像分析、産業検査、パーソンセグメンテーション用のスマートフォンカメラなど、現実世界のアプリケーションで広く使われている。モバイルとエッジデバイスにおけるセマンティクスセグメンテーションモデルを加速することは、業界にとって実用的なニーズである。近年、CNN(Convolutional Neural Networks)アクセラレータが広く利用できるようになった。それらは、エッジデバイス上のセマンティックセグメンテーションモデルを加速するのに理想的な電力効率、推論速度に利点がある。しかし、CNNアクセラレータチップは、柔軟性とメモリにも制限がある。さらに、CNNアクセラレータチップがホストCPUとのコプロセッサとして機能するため、CPU負荷は非常に重要である。本稿では,CNNアクセラレータチップ上のメモリとサポート対象演算子を完全に活用するためにセマンティックセグメンテーションモデルを最適化し,同時にCNNモデルのCPU負荷をゼロにする。結果として得られるモデルはGnetSegと呼ばれる。さらに,cnnアクセラレータとホストcpu間のデータ転送のレイテンシを最小化するgnetsegモデルのマスクの整数符号化を提案する。実験結果から,224mWチップ上で動作したモデルでは318FPSの高速化を実現し,人体セグメンテーションなどの応用に優れた精度が得られた。

関連論文リスト

CNN Mixture-of-Depths [4.150676163661315]
畳み込みニューラルネットワーク(CNN)のためのMixture-of-Depths(MoD) 畳み込みニューラルネットワーク(CNN)のためのMixture-of-Depths(MoD)を紹介する。
論文参考訳（メタデータ） (2024-09-25T15:19:04Z)
OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文参考訳（メタデータ） (2024-03-21T14:06:38Z)
SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文参考訳（メタデータ） (2023-02-14T13:35:15Z)
Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文参考訳（メタデータ） (2022-03-13T17:22:44Z)
Continual 3D Convolutional Neural Networks for Real-time Processing of Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。 Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文参考訳（メタデータ） (2021-05-31T18:30:52Z)
A Joint Energy and Latency Framework for Transfer Learning over 5G Industrial Edge Networks [53.26338041079138]
5G産業エッジネットワークのための転送学習対応エッジCNNフレームワークを提案する。特に、エッジサーバは、既存の画像データセットを使用してcnnを事前トレーニングすることができる。 TLの助けを借りて、トレーニングに参加していないデバイスは、訓練されたエッジCNNモデルをスクラッチからトレーニングせずに微調整するだけです。
論文参考訳（メタデータ） (2021-04-19T15:13:16Z)
MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文参考訳（メタデータ） (2021-03-21T23:06:38Z)
GnetDet: Object Detection Optimized on a 224mW CNN Accelerator Chip at the Speed of 106FPS [10.644839299403612]
CPU負荷を最小限に抑え、CNNアクセラレータチップ上のオブジェクト検出モデルを最適化する。実験結果から, 224mW チップ上で動作する GnetDet モデルは106FPS の速度を精度良く達成できることがわかった。
論文参考訳（メタデータ） (2021-02-19T06:16:42Z)
RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。 3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文参考訳（メタデータ） (2020-07-20T02:05:32Z)
ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network [0.0]
この論文はFPGAベースのCNNアクセラレーションの可能性を探るものである。 Zynq System-on-Chip上でのCNN実装の完全機能を示す。
論文参考訳（メタデータ） (2020-05-14T11:54:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。