論文の概要: S3-Net: A Fast and Lightweight Video Scene Understanding Network by
Single-shot Segmentation
- arxiv url: http://arxiv.org/abs/2011.02265v1
- Date: Wed, 4 Nov 2020 13:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:23:01.249761
- Title: S3-Net: A Fast and Lightweight Video Scene Understanding Network by
Single-shot Segmentation
- Title(参考訳): s3-net:シングルショットセグメンテーションによる高速軽量ビデオシーン理解ネットワーク
- Authors: Yuan Cheng, Yuchao Yang, Hai-Bao Chen, Ngai Wong, Hao Yu
- Abstract要約: リアルタイム理解は、自律運転など、さまざまなAIアプリケーションにおいて不可欠である。
本研究は、シーン理解のための高速なシングルショットセグメンテーション戦略を示す。
S3-Netと呼ばれる提案されたネットは、ターゲットのサブシーンを素早く見つけ、セグメント化する。
- 参考スコア(独自算出の注目度): 17.401855577684707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time understanding in video is crucial in various AI applications such
as autonomous driving. This work presents a fast single-shot segmentation
strategy for video scene understanding. The proposed net, called S3-Net,
quickly locates and segments target sub-scenes, meanwhile extracts structured
time-series semantic features as inputs to an LSTM-based spatio-temporal model.
Utilizing tensorization and quantization techniques, S3-Net is intended to be
lightweight for edge computing. Experiments using CityScapes, UCF11, HMDB51 and
MOMENTS datasets demonstrate that the proposed S3-Net achieves an accuracy
improvement of 8.1% versus the 3D-CNN based approach on UCF11, a storage
reduction of 6.9x and an inference speed of 22.8 FPS on CityScapes with a
GTX1080Ti GPU.
- Abstract(参考訳): ビデオのリアルタイム理解は、自動運転など、さまざまなAIアプリケーションにおいて不可欠である。
本研究は,映像シーン理解のための高速単発セグメンテーション戦略を提案する。
提案するS3-Netは,STMに基づく時空間モデルへの入力として,構造化時系列意味的特徴を抽出する。
S3-Netはテンソル化技術と量子化技術を活用し、エッジコンピューティングに軽量である。
CityScapes、UCF11、HMDB51、MOMENTSデータセットを用いた実験では、提案されたS3-Netは、UCF11による3D-CNNベースのアプローチに比べて精度が8.1%向上し、ストレージは6.9倍、推論速度はGTX1080 Ti GPUでCityScapes上で22.8FPSである。
関連論文リスト
- Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes [32.54045305607654]
多くの最先端のリアルタイムセマンティックセグメンテーション手法は、空間的詳細や文脈情報を犠牲にして高速な推論を行う傾向にある。
街路シーンにおけるリアルタイムセマンティックセグメンテーションを実現するために,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
提案したDMA-Netは,1個のNVIDIA GTX 1080Ti GPUのみを用いて,それぞれ46.7 FPSと119.8 FPSの予測速度で,平均77.0%,平均73.6%のUnion(mIoU)が得られる。
論文 参考訳(メタデータ) (2022-03-08T12:07:32Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。