論文の概要: Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2010.10027v2
- Date: Wed, 17 Mar 2021 09:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:14:40.128390
- Title: Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation
- Title(参考訳): 時空間的知識蒸留による高速ビデオサルエント物体検出
- Authors: Yi Tang and Yuanman Li and Wenbin Zou
- Abstract要約: 本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
- 参考スコア(独自算出の注目度): 20.196945571479002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the wide employment of deep learning frameworks in video salient object
detection, the accuracy of the recent approaches has made stunning progress.
These approaches mainly adopt the sequential modules, based on optical flow or
recurrent neural network (RNN), to learn robust spatiotemporal features. These
modules are effective but significantly increase the computational burden of
the corresponding deep models. In this paper, to simplify the network and
maintain the accuracy, we present a lightweight network tailored for video
salient object detection through the spatiotemporal knowledge distillation.
Specifically, in the spatial aspect, we combine a saliency guidance feature
embedding structure and spatial knowledge distillation to refine the spatial
features. In the temporal aspect, we propose a temporal knowledge distillation
strategy, which allows the network to learn the robust temporal features
through the infer-frame feature encoding and distilling information from
adjacent frames. The experiments on widely used video datasets (e.g., DAVIS,
DAVSOD, SegTrack-V2) prove that our approach achieves competitive performance.
Furthermore, without the employment of the complex sequential modules, the
proposed network can obtain high efficiency with 0.01s per frame.
- Abstract(参考訳): ビデオサルエント物体検出におけるディープラーニングフレームワークの広範な採用から,最近のアプローチの精度は驚くべき進歩を遂げている。
これらのアプローチは主に、光フローまたはリカレントニューラルネットワーク(RNN)に基づくシーケンシャルモジュールを採用して、堅牢な時空間特徴を学習する。
これらのモジュールは有効であるが、対応する深層モデルの計算負担を大幅に増大させる。
本稿では,このネットワークを簡素化し,精度を維持するために,時空間知識蒸留による映像の有意な物体検出に適した軽量ネットワークを提案する。
具体的には, 空間的側面において, 空間的特徴を洗練するために, 塩分指導的特徴埋め込み構造と空間的知識蒸留を組み合わせる。
時間的側面において,ネットワークが隣接するフレームから情報を符号化・蒸留することで,強靭な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
広く使われているビデオデータセット(davis, davsod, segtrack-v2)における実験は、我々のアプローチが競合性能を達成することを証明している。
さらに、複雑なシーケンシャルモジュールを使わずに、提案ネットワークはフレーム当たり0.01sの高効率を得ることができる。
関連論文リスト
- Temporal-Spatial Processing of Event Camera Data via Delay-Loop Reservoir Neural Network [0.11309478649967238]
遅延ループ貯水池ニューラルネットを用いたビデオ処理の先行研究を動機とする予測について検討した。
本稿では,この新たな発見を利用して,イベントカメラ分類のための遅延ループ貯水池ニューラルネットワークの設計をガイドする。
論文 参考訳(メタデータ) (2024-02-12T16:24:13Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatio-Temporal Recurrent Networks for Event-Based Optical Flow
Estimation [47.984368369734995]
本稿では,イベントベース光フロー推定のためのニューラルネットアーキテクチャを提案する。
このネットワークは、Multi-Vehicle Stereo Event Cameraデータセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
既存の最先端の手法を大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2021-09-10T13:37:37Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。