論文の概要: BSUV-Net 2.0: Spatio-Temporal Data Augmentations for Video-Agnostic
Supervised Background Subtraction
- arxiv url: http://arxiv.org/abs/2101.09585v2
- Date: Wed, 24 Feb 2021 19:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 10:44:16.158223
- Title: BSUV-Net 2.0: Spatio-Temporal Data Augmentations for Video-Agnostic
Supervised Background Subtraction
- Title(参考訳): BSUV-Net 2.0:ビデオに依存しないバックグラウンドサブトラクションのための時空間データ拡張
- Authors: M. Ozan Tezcan, Prakash Ishwar, Janusz Konrad
- Abstract要約: 時間的データ拡張を導入し、ビデオ非依存のBGSアルゴリズムであるBSUV-Netに適用します。
提案手法はBSUV-Net 2.0と名付けられ,CDNet-2014の未確認ビデオで評価された最先端のアルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 20.25147743706431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background subtraction (BGS) is a fundamental video processing task which is
a key component of many applications. Deep learning-based supervised algorithms
achieve very good perforamnce in BGS, however, most of these algorithms are
optimized for either a specific video or a group of videos, and their
performance decreases dramatically when applied to unseen videos. Recently,
several papers addressed this problem and proposed video-agnostic supervised
BGS algorithms. However, nearly all of the data augmentations used in these
algorithms are limited to the spatial domain and do not account for temporal
variations that naturally occur in video data. In this work, we introduce
spatio-temporal data augmentations and apply them to one of the leading
video-agnostic BGS algorithms, BSUV-Net. We also introduce a new
cross-validation training and evaluation strategy for the CDNet-2014 dataset
that makes it possible to fairly and easily compare the performance of various
video-agnostic supervised BGS algorithms. Our new model trained using the
proposed data augmentations, named BSUV-Net 2.0, significantly outperforms
state-of-the-art algorithms evaluated on unseen videos of CDNet-2014. We also
evaluate the cross-dataset generalization capacity of BSUV-Net 2.0 by training
it solely on CDNet-2014 videos and evaluating its performance on LASIESTA
dataset. Overall, BSUV-Net 2.0 provides a ~5% improvement in the F-score over
state-of-the-art methods on unseen videos of CDNet-2014 and LASIESTA datasets.
Furthermore, we develop a real-time variant of our model, that we call Fast
BSUV-Net 2.0, whose performance is close to the state of the art.
- Abstract(参考訳): バックグラウンドサブトラクション(BGS)は多くのアプリケーションの主要なコンポーネントである基本的なビデオ処理タスクである。
ディープラーニングに基づく教師付きアルゴリズムは、BGSにおいて非常に優れたパーフォランスを達成するが、これらのアルゴリズムのほとんどは、特定のビデオまたはビデオのグループに最適化されている。
近年,この問題に対処し,ビデオ非依存型BGSアルゴリズムを提案する論文がいくつかある。
しかし、これらのアルゴリズムで使用されるデータ拡張のほとんどは空間領域に限定されており、ビデオデータで自然に発生する時間的変動を考慮しない。
本研究では、時空間データ拡張を導入し、主要なビデオ非依存BGSアルゴリズムであるBSUV-Netに適用する。
また、CDNet-2014データセットのクロスバリデーショントレーニングと評価戦略を導入し、様々なビデオ非依存のBGSアルゴリズムの性能を公平かつ容易に比較できるようにする。
提案したBSUV-Net 2.0を用いてトレーニングした新しいモデルは、CDNet-2014の未確認ビデオで評価された最先端のアルゴリズムを大幅に上回っている。
また,CDNet-2014ビデオのみをトレーニングし,LASIESTAデータセット上での性能を評価することにより,BSUV-Net 2.0のクロスデータセット一般化能力を評価する。
全体として、BSUV-Net 2.0は、CDNet-2014とLASIESTAデータセットの見えないビデオに対する最先端メソッドよりも、Fスコアが約5%改善されている。
さらに、我々はFast BSUV-Net 2.0と呼ぶリアルタイムモデルを開発し、その性能は最先端技術に近い。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Online Unsupervised Video Object Segmentation via Contrastive Motion
Clustering [27.265597448266988]
オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。
主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。
本研究では、オンラインUVOSにおいて、視覚的要素が同一であれば群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラッシブ・モーション・クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:40:31Z) - EfficientSCI: Densely Connected Network with Space-time Factorization
for Large-scale Video Snapshot Compressive Imaging [6.8372546605486555]
圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドのディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示す。
提案手法は,従来のSOTAアルゴリズムよりも性能が優れ,リアルタイム性能が向上した。
論文 参考訳(メタデータ) (2023-05-17T07:28:46Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - rSVDdpd: A Robust Scalable Video Surveillance Background Modelling
Algorithm [13.535770763481905]
本稿では,新しいロバストな特異値分解手法rSVDdpdに基づくビデオ監視背景モデリングアルゴリズムを提案する。
また,提案アルゴリズムは,カメラの改ざんの有無で,ベンチマークデータセットとリアルタイムビデオ監視データセットに優越することを示した。
論文 参考訳(メタデータ) (2021-09-22T12:20:44Z) - Shot boundary detection method based on a new extensive dataset and
mixed features [68.8204255655161]
ビデオにおけるショット境界検出は、ビデオデータ処理の重要な段階の1つである。
カラーヒストグラムや物体境界などの映像特徴に基づくショット境界検出法が提案されている。
論文 参考訳(メタデータ) (2021-09-02T16:19:24Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。