論文の概要: Shift-Memory Network for Temporal Scene Segmentation
- arxiv url: http://arxiv.org/abs/2202.08399v1
- Date: Thu, 17 Feb 2022 01:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 15:20:25.751393
- Title: Shift-Memory Network for Temporal Scene Segmentation
- Title(参考訳): テンポラルシーンセグメンテーションのためのシフトメモリネットワーク
- Authors: Guo Cheng, Jiang Yu Zheng
- Abstract要約: 時間領域のセマンティックセグメンテーションを拡張し,動きによる空間的精度を高める。
我々は、ストリーミング入力上のシフトモードネットワークを用いて、ゼロレイテンシ出力を保証する。
実験はシフトモードと同様の精度を達成するが、高速な推論速度とはるかに少ないメモリで実現できる。
- 参考スコア(独自算出の注目度): 2.3986080077861787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic segmentation has achieved great accuracy in understanding spatial
layout. For real-time tasks based on dynamic scenes, we extend semantic
segmentation in temporal domain to enhance the spatial accuracy with motion. We
utilize a shift-mode network over streaming input to ensure zero-latency
output. For the data overlap under shifting network, this paper identifies
repeated computation in fixed periods across network layers. To avoid this
redundancy, we derive a Shift-Memory Network (SMN) from encoding-decoding
baseline to reuse the network values without accuracy loss. Trained in
patch-mode, the SMN extracts the network parameters for SMN to perform
inference promptly in compact memory. We segment dynamic scenes from 1D
scanning input and 2D video. The experiments of SMN achieve equivalent accuracy
as shift-mode but in faster inference speeds and much smaller memory. This will
facilitate semantic segmentation in real-time application on edge devices.
- Abstract(参考訳): 意味セグメンテーションは空間レイアウトの理解において非常に正確である。
動的シーンに基づくリアルタイムタスクでは,時間領域における意味セグメンテーションを拡張し,動きによる空間的精度を向上させる。
ストリーミング入力上のシフトモードネットワークを用いて、ゼロレイテンシ出力を保証する。
シフトネットワーク下でのデータの重なりについて,ネットワーク層間の一定周期における反復計算を同定する。
この冗長性を避けるために、シフトメモリネットワーク(smn)を符号化復号ベースラインから導出し、精度を損なうことなくネットワーク値を再利用する。
SMNはパッチモードで訓練され、SMNのネットワークパラメータを抽出し、高速なメモリで推論を行う。
1dスキャン入力と2dビデオから動的シーンを分割する。
SMNの実験はシフトモードとして同等の精度を達成するが、高速な推論速度とメモリの縮小を実現している。
これにより、エッジデバイス上のリアルタイムアプリケーションにおけるセマンティックセグメンテーションが容易になる。
関連論文リスト
- Reparameterizable Dual-Resolution Network for Real-time Semantic Segmentation [15.83905822380148]
RDRNetは、リアルタイムセマンティックセグメンテーションに特化したDual-Resolution Networkである。
RDRNetは2分岐アーキテクチャを採用し、トレーニング中にマルチパスブロックを利用し、推論時にそれらをシングルパスブロックに再パラメータ化する。
Cityscapes、CamVid、Pascal VOC 2012データセットの実験結果は、RDRNetが既存の最先端モデルよりもパフォーマンスとスピードの両方で優れていることを示している。
論文 参考訳(メタデータ) (2024-06-18T10:59:10Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes [32.54045305607654]
多くの最先端のリアルタイムセマンティックセグメンテーション手法は、空間的詳細や文脈情報を犠牲にして高速な推論を行う傾向にある。
街路シーンにおけるリアルタイムセマンティックセグメンテーションを実現するために,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
提案したDMA-Netは,1個のNVIDIA GTX 1080Ti GPUのみを用いて,それぞれ46.7 FPSと119.8 FPSの予測速度で,平均77.0%,平均73.6%のUnion(mIoU)が得られる。
論文 参考訳(メタデータ) (2022-03-08T12:07:32Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - A De-raining semantic segmentation network for real-time foreground
segmentation [0.0]
本稿では,降雨環境におけるセグメンテーションのための軽量ネットワークであるDeraining Semantic Accuracy Network (DRSNet)を提案する。
雨滴の特性を解析することにより、MultiScaleSE Blockは入力画像のエンコードを目標としている。
異なるエンコーダ層とデコーダ層とのセマンティック情報を組み合わせるために,非対称スキップを用いることを提案する。
論文 参考訳(メタデータ) (2021-04-16T04:09:13Z) - HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。
我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文 参考訳(メタデータ) (2020-12-21T18:58:18Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。