論文の概要: DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2012.04886v1
- Date: Wed, 9 Dec 2020 06:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:04:24.716511
- Title: DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection
- Title(参考訳): ds-net: 映像サルエント物体検出のための動的時空間ネットワーク
- Authors: Yuting Su, Weikang Wang, Jing Liu, Peiguang Jing and Xiaokang Yang
- Abstract要約: 時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 78.04869214450963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As moving objects always draw more attention of human eyes, the temporal
motive information is always exploited complementarily with spatial information
to detect salient objects in videos. Although efficient tools such as optical
flow have been proposed to extract temporal motive information, it often
encounters difficulties when used for saliency detection due to the movement of
camera or the partial movement of salient objects. In this paper, we
investigate the complimentary roles of spatial and temporal information and
propose a novel dynamic spatiotemporal network (DS-Net) for more effective
fusion of spatiotemporal information. We construct a symmetric two-bypass
network to explicitly extract spatial and temporal features. A dynamic weight
generator (DWG) is designed to automatically learn the reliability of
corresponding saliency branch. And a top-down cross attentive aggregation (CAA)
procedure is designed so as to facilitate dynamic complementary aggregation of
spatiotemporal features. Finally, the features are modified by spatial
attention with the guidance of coarse saliency map and then go through decoder
part for final saliency map. Experimental results on five benchmarks VOS,
DAVIS, FBMS, SegTrack-v2, and ViSal demonstrate that the proposed method
achieves superior performance than state-of-the-art algorithms. The source code
is available at https://github.com/TJUMMG/DS-Net.
- Abstract(参考訳): 移動物体は常に人間の目に注意を向けるので、時間的動機情報は常に空間情報と相補的に利用され、ビデオ内の有能な物体を検出する。
時間的モーメント情報を抽出するために,光学フローなどの効率的なツールが提案されているが,カメラの移動やサリアント物体の部分的移動による塩分濃度検出には困難が伴うことが多い。
本稿では,空間的および時間的情報の補完的役割について検討し,より効果的な時空間情報の融合のための新しい動的時空間ネットワーク(ds-net)を提案する。
空間的特徴と時間的特徴を明示的に抽出する対称2バイパスネットワークを構築した。
動的重み発生器(DWG)は、対応する唾液枝の信頼性を自動的に学習するように設計されている。
また,時空間特徴の動的相補的集約を容易にするために,トップダウンクロス注意集約(CAA)手順を設計した。
最後に,粗いサリエンシーマップの指導により空間的注意によって特徴を変更し,最終サリエンシーマップのデコーダ部分を通過する。
VOS,DAVIS,FBMS,SegTrack-v2,ViSalの5つのベンチマークによる実験結果から,提案手法が最先端のアルゴリズムよりも優れた性能を実現することを示す。
ソースコードはhttps://github.com/TJUMMG/DS-Netで入手できる。
関連論文リスト
- DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition [2.705905918316948]
ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
本研究では, 疎サンプリングされたビデオフレームをグローバルに重み付けした時間的注意力を得るために, 新たにSparse Weighted Temporal Attention (SWTA) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-12-07T00:33:40Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - TRAT: Tracking by Attention Using Spatio-Temporal Features [14.520067060603209]
空間的特徴と時間的特徴の両方を利用する2ストリームディープニューラルネットワークトラッカーを提案する。
我々のアーキテクチャはATOMトラッカー上で開発され、 (i) 外観特徴を捉える2D-CNNネットワークと (ii) 動作特徴を捉える3D-CNNネットワークの2つのバックボーンを含んでいる。
論文 参考訳(メタデータ) (2020-11-18T20:11:12Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。