論文の概要: GSVNet: Guided Spatially-Varying Convolution for Fast Semantic
Segmentation on Video
- arxiv url: http://arxiv.org/abs/2103.08834v1
- Date: Tue, 16 Mar 2021 03:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 20:54:35.601505
- Title: GSVNet: Guided Spatially-Varying Convolution for Fast Semantic
Segmentation on Video
- Title(参考訳): GSVNet: ビデオ上の高速セマンティックセグメンテーションのための空間変化型畳み込み
- Authors: Shih-Po Lee, Si-Cun Chen, Wen-Hsiao Peng
- Abstract要約: ビデオセグメンテーションのための簡易かつ効率的な伝播フレームワークを提案する。
セグメンテーション外空間における時間ゆがみのための1/8スケール画像空間における軽量フロー推定を行う。
本稿では,前フレームと現在のフレームからのセグメンテーションを融合する誘導型空間変動畳み込みを導入し,伝搬誤差を緩和する。
- 参考スコア(独自算出の注目度): 10.19019476978683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses fast semantic segmentation on video.Video segmentation
often calls for real-time, or even fasterthan real-time, processing. One common
recipe for conserving computation arising from feature extraction is to
propagate features of few selected keyframes. However, recent advances in fast
image segmentation make these solutions less attractive. To leverage fast image
segmentation for furthering video segmentation, we propose a simple yet
efficient propagation framework. Specifically, we perform lightweight flow
estimation in 1/8-downscaled image space for temporal warping in segmentation
outpace space. Moreover, we introduce a guided spatially-varying convolution
for fusing segmentations derived from the previous and current frames, to
mitigate propagation error and enable lightweight feature extraction on
non-keyframes. Experimental results on Cityscapes and CamVid show that our
scheme achieves the state-of-the-art accuracy-throughput trade-off on video
segmentation.
- Abstract(参考訳): ビデオセグメンテーションはリアルタイム処理やリアルタイム処理よりも高速であることが多い。
特徴抽出から生じる計算を保存する一般的なレシピは、選択された数個のキーフレームの特徴を伝播させることである。
しかし、最近の高速画像分割の進歩により、これらのソリューションはより魅力的になる。
高速画像セグメンテーションをビデオセグメンテーションに活用するために,簡易かつ効率的な伝播フレームワークを提案する。
具体的には,セグメンテーション外空間における時間ゆがみのための1/8スケール画像空間における軽量な流れ推定を行う。
さらに,従来のフレームと現在のフレームから派生したセグメンテーションを融合させ,伝播誤差を軽減し,非キーフレーム上での軽量な特徴抽出を可能にする。
cityscapes と camvid を用いた実験の結果,ビデオセグメンテーションにおける最先端の精度向上を実現することができた。
関連論文リスト
- A Simple Video Segmenter by Tracking Objects Along Axial Trajectories [30.272535124699164]
ビデオセグメンテーションは、時間とともにオブジェクトのセグメンテーションと追跡を必要とする。
入力サイズに二次的な依存があるため、高解像度の入力特徴を持つビデオセグメンテーションに自己注意を直接適用することが大きな課題となる。
Axial-VSは,物体を軸方向に沿って追跡することで映像セグメンタを強化するフレームワークである。
論文 参考訳(メタデータ) (2023-11-30T13:20:09Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。
提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-26T12:57:04Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。