論文の概要: Efficient Video Semantic Segmentation with Labels Propagation and
Refinement
- arxiv url: http://arxiv.org/abs/1912.11844v1
- Date: Thu, 26 Dec 2019 11:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 08:19:00.626559
- Title: Efficient Video Semantic Segmentation with Labels Propagation and
Refinement
- Title(参考訳): ラベルプロパゲーションとリファインメントを用いた効率的なビデオセマンティックセマンティックセグメンテーション
- Authors: Matthieu Paul, Christoph Mayer, Luc Van Gool, Radu Timofte
- Abstract要約: 本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
- 参考スコア(独自算出の注目度): 138.55845680523908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of real-time semantic segmentation of high
definition videos using a hybrid GPU / CPU approach. We propose an Efficient
Video Segmentation(EVS) pipeline that combines:
(i) On the CPU, a very fast optical flow method, that is used to exploit the
temporal aspect of the video and propagate semantic information from one frame
to the next. It runs in parallel with the GPU.
(ii) On the GPU, two Convolutional Neural Networks: A main segmentation
network that is used to predict dense semantic labels from scratch, and a
Refiner that is designed to improve predictions from previous frames with the
help of a fast Inconsistencies Attention Module (IAM). The latter can identify
regions that cannot be propagated accurately.
We suggest several operating points depending on the desired frame rate and
accuracy. Our pipeline achieves accuracy levels competitive to the existing
real-time methods for semantic image segmentation(mIoU above 60%), while
achieving much higher frame rates. On the popular Cityscapes dataset with high
resolution frames (2048 x 1024), the proposed operating points range from 80 to
1000 Hz on a single GPU and CPU.
- Abstract(参考訳): 本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
我々は,効率的なビデオセグメンテーション(evs)パイプラインを提案する。
i)CPU上では,映像の時間的側面を利用して,あるフレームから次のフレームへ意味情報を伝達する,非常に高速な光フロー法が用いられる。
GPUと並行して動作する。
(ii)GPUでは、2つの畳み込みニューラルネットワーク:スクラッチから密接なセマンティックラベルを予測するために使用される主セグメンテーションネットワークと、高速不整合注意モジュール(IAM)の助けを借りて、以前のフレームからの予測を改善するように設計されたRefinerである。
後者は、正確に伝播できない領域を識別することができる。
所望のフレームレートと精度に応じて,いくつかの操作点を提案する。
我々のパイプラインは、既存のリアルタイム画像分割法(mIoU 60%以上)と競合する精度を達成し、フレームレートをはるかに高めている。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Space-time Reinforcement Network for Video Object Segmentation [16.67780344875854]
ビデオオブジェクトセグメンテーション(VOS)ネットワークは通常、メモリベースの手法を使用する。
これらの手法は,1) 隣接するビデオフレーム間の空間的コヒーレンスをデータの整合によって破壊し,2) 画素レベルのマッチングが望ましくないミスマッチを引き起こすという2つの問題に悩まされる。
本稿では,隣接フレーム間の補助フレームを生成することを提案し,クエリの暗黙的短時間参照として機能する。
論文 参考訳(メタデータ) (2024-05-07T06:26:30Z) - Cross-CBAM: A Lightweight network for Scene Segmentation [2.064612766965483]
リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
CityscapesデータセットとCamvidデータセットの実験では、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。
論文 参考訳(メタデータ) (2023-06-04T09:03:05Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。