論文の概要: Efficient Video Semantic Segmentation with Labels Propagation and
Refinement
- arxiv url: http://arxiv.org/abs/1912.11844v1
- Date: Thu, 26 Dec 2019 11:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 08:19:00.626559
- Title: Efficient Video Semantic Segmentation with Labels Propagation and
Refinement
- Title(参考訳): ラベルプロパゲーションとリファインメントを用いた効率的なビデオセマンティックセマンティックセグメンテーション
- Authors: Matthieu Paul, Christoph Mayer, Luc Van Gool, Radu Timofte
- Abstract要約: 本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
- 参考スコア(独自算出の注目度): 138.55845680523908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of real-time semantic segmentation of high
definition videos using a hybrid GPU / CPU approach. We propose an Efficient
Video Segmentation(EVS) pipeline that combines:
(i) On the CPU, a very fast optical flow method, that is used to exploit the
temporal aspect of the video and propagate semantic information from one frame
to the next. It runs in parallel with the GPU.
(ii) On the GPU, two Convolutional Neural Networks: A main segmentation
network that is used to predict dense semantic labels from scratch, and a
Refiner that is designed to improve predictions from previous frames with the
help of a fast Inconsistencies Attention Module (IAM). The latter can identify
regions that cannot be propagated accurately.
We suggest several operating points depending on the desired frame rate and
accuracy. Our pipeline achieves accuracy levels competitive to the existing
real-time methods for semantic image segmentation(mIoU above 60%), while
achieving much higher frame rates. On the popular Cityscapes dataset with high
resolution frames (2048 x 1024), the proposed operating points range from 80 to
1000 Hz on a single GPU and CPU.
- Abstract(参考訳): 本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
我々は,効率的なビデオセグメンテーション(evs)パイプラインを提案する。
i)CPU上では,映像の時間的側面を利用して,あるフレームから次のフレームへ意味情報を伝達する,非常に高速な光フロー法が用いられる。
GPUと並行して動作する。
(ii)GPUでは、2つの畳み込みニューラルネットワーク:スクラッチから密接なセマンティックラベルを予測するために使用される主セグメンテーションネットワークと、高速不整合注意モジュール(IAM)の助けを借りて、以前のフレームからの予測を改善するように設計されたRefinerである。
後者は、正確に伝播できない領域を識別することができる。
所望のフレームレートと精度に応じて,いくつかの操作点を提案する。
我々のパイプラインは、既存のリアルタイム画像分割法(mIoU 60%以上)と競合する精度を達成し、フレームレートをはるかに高めている。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
関連論文リスト
- Cross-CBAM: A Lightweight network for Scene Segmentation [2.064612766965483]
リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
CityscapesデータセットとCamvidデータセットの実験では、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。
論文 参考訳(メタデータ) (2023-06-04T09:03:05Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z) - CRVOS: Clue Refining Network for Video Object Segmentation [5.947279761429668]
我々は,これらのシナリオを効率的に処理する中間ネットワークを持たないリアルタイム・ネットワーク,Clue Network for Video Object Refining (CRVOS)を提案する。
提案手法は競合精度の高い既存手法の中で最速のfps速度を示す。
DAVIS 2016では63.5fps、J&Fスコア81.6%を達成した。
論文 参考訳(メタデータ) (2020-02-10T10:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。