論文の概要: Motion-aware Memory Network for Fast Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2208.00946v2
- Date: Sun, 31 Dec 2023 07:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 03:21:28.682997
- Title: Motion-aware Memory Network for Fast Video Salient Object Detection
- Title(参考訳): 高速ビデオサルエント物体検出のためのモーションアウェアメモリネットワーク
- Authors: Xing Zhao, Haoran Liang, Peipei Li, Guodao Sun, Dongdong Zhao, Ronghua
Liang and Xiaofei He
- Abstract要約: 我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
- 参考スコア(独自算出の注目度): 15.967509480432266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous methods based on 3DCNN, convLSTM, or optical flow have achieved
great success in video salient object detection (VSOD). However, they still
suffer from high computational costs or poor quality of the generated saliency
maps. To solve these problems, we design a space-time memory (STM)-based
network, which extracts useful temporal information of the current frame from
adjacent frames as the temporal branch of VSOD. Furthermore, previous methods
only considered single-frame prediction without temporal association. As a
result, the model may not focus on the temporal information sufficiently. Thus,
we initially introduce object motion prediction between inter-frame into VSOD.
Our model follows standard encoder--decoder architecture. In the encoding
stage, we generate high-level temporal features by using high-level features
from the current and its adjacent frames. This approach is more efficient than
the optical flow-based methods. In the decoding stage, we propose an effective
fusion strategy for spatial and temporal branches. The semantic information of
the high-level features is used to fuse the object details in the low-level
features, and then the spatiotemporal features are obtained step by step to
reconstruct the saliency maps. Moreover, inspired by the boundary supervision
commonly used in image salient object detection (ISOD), we design a
motion-aware loss for predicting object boundary motion and simultaneously
perform multitask learning for VSOD and object motion prediction, which can
further facilitate the model to extract spatiotemporal features accurately and
maintain the object integrity. Extensive experiments on several datasets
demonstrated the effectiveness of our method and can achieve state-of-the-art
metrics on some datasets. The proposed model does not require optical flow or
other preprocessing, and can reach a speed of nearly 100 FPS during inference.
- Abstract(参考訳): 従来の3DCNN, convLSTM, あるいは光流を用いた手法は, ビデオサルエント物体検出(VSOD)において大きな成功を収めている。
しかし、それでも高い計算コストや、生成されたサリエンシマップの品質に悩まされている。
これらの問題を解決するために,vodの時間分枝として,隣接フレームから現在フレームの有用な時間情報を抽出する時空間メモリ(stm)ベースのネットワークを設計する。
さらに,従来の手法は時間的関連のない単一フレーム予測のみを考慮した。
結果として、モデルは時間的情報に十分に集中できない。
そこで本研究ではまず,フレーム間移動予測をvsodに導入する。
我々のモデルは標準エンコーダ-デコーダアーキテクチャに従う。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
このアプローチは光フローベースの手法よりも効率的である。
復号段階では,空間分枝と時間分枝の効果的な融合戦略を提案する。
ハイレベルな特徴のセマンティック情報は、低レベルな特徴にオブジェクトの詳細を融合するために使用され、時空的特徴を段階的に取得してサリエンシーマップを再構築する。
さらに,イメージ・サリエント・オブジェクト検出(ISOD)に共通する境界監督に着想を得て,物体の境界運動を予測するための動き認識損失を設計し,VSODのマルチタスク学習とオブジェクトの動作予測を同時に行うことにより,時空間の特徴を正確に抽出し,オブジェクトの整合性を維持することができる。
いくつかのデータセットに対する大規模な実験により,提案手法の有効性が実証され,いくつかのデータセット上で最先端のメトリクスを達成できた。
提案するモデルでは,光学フローなどの前処理を必要とせず,100FPSの速度に達することができる。
関連論文リスト
- Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards
Video Object Detection [28.879484515844375]
統合強化のための時間情報と空間情報の両方を導入するための進歩的な方法を導入する。
PTSEFormerは、ImageNet VIDデータセットで88.1%のmAPを達成しながら、重い後処理手順を避けるために、エンドツーエンドのスタイルに従っている。
論文 参考訳(メタデータ) (2022-09-06T06:32:57Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatio-Temporal Recurrent Networks for Event-Based Optical Flow
Estimation [47.984368369734995]
本稿では,イベントベース光フロー推定のためのニューラルネットアーキテクチャを提案する。
このネットワークは、Multi-Vehicle Stereo Event Cameraデータセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
既存の最先端の手法を大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2021-09-10T13:37:37Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。