論文の概要: Video Salient Object Detection via Contrastive Features and Attention
Modules
- arxiv url: http://arxiv.org/abs/2111.02368v1
- Date: Wed, 3 Nov 2021 17:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:45:49.296707
- Title: Video Salient Object Detection via Contrastive Features and Attention
Modules
- Title(参考訳): コントラスト特徴とアテンションモジュールによるビデオ・サイレント物体検出
- Authors: Yi-Wen Chen, Xiaojie Jin, Xiaohui Shen, Ming-Hsuan Yang
- Abstract要約: 本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
- 参考スコア(独自算出の注目度): 106.33219760012048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video salient object detection aims to find the most visually distinctive
objects in a video. To explore the temporal dependencies, existing methods
usually resort to recurrent neural networks or optical flow. However, these
approaches require high computational cost, and tend to accumulate inaccuracies
over time. In this paper, we propose a network with attention modules to learn
contrastive features for video salient object detection without the high
computational temporal modeling techniques. We develop a non-local
self-attention scheme to capture the global information in the video frame. A
co-attention formulation is utilized to combine the low-level and high-level
features. We further apply the contrastive learning to improve the feature
representations, where foreground region pairs from the same video are pulled
together, and foreground-background region pairs are pushed away in the latent
space. The intra-frame contrastive loss helps separate the foreground and
background features, and the inter-frame contrastive loss improves the temporal
consistency. We conduct extensive experiments on several benchmark datasets for
video salient object detection and unsupervised video object segmentation, and
show that the proposed method requires less computation, and performs favorably
against the state-of-the-art approaches.
- Abstract(参考訳): video salient object detectionは、ビデオの中で最も視覚的なオブジェクトを見つけることを目的としている。
時間的依存性を調べるために、既存の手法は通常、リカレントニューラルネットワークやオプティカルフローに頼る。
しかし、これらのアプローチは高い計算コストを必要とし、時間とともに不正確さを蓄積する傾向がある。
本稿では,高計算時間モデリング手法を使わずに映像サリエント物体検出のためのコントラスト特徴を学習するための注意モジュール付きネットワークを提案する。
ビデオフレーム内のグローバルな情報をキャプチャする非ローカル自己注意方式を開発した。
低レベルと高レベルを組み合わせるためにコアテンション式を用いる。
さらに、コントラスト学習を適用して、同一映像からのフォアグラウンド領域ペアをプルし、潜在空間内でフォアグラウンド・バックグラウンド領域ペアをプッシュする特徴表現を改善する。
フレーム内コントラスト損失は前景と背景の特徴を分離するのに役立ち、フレーム間コントラスト損失は時間的一貫性を改善する。
本研究では,ビデオサリエントオブジェクト検出と教師なしビデオオブジェクトセグメンテーションのためのいくつかのベンチマークデータセットについて広範な実験を行い,提案手法が計算量が少なく,最先端のアプローチに対して好適に動作することを示す。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z) - Video Anomaly Detection Using Pre-Trained Deep Convolutional Neural Nets
and Context Mining [2.0646127669654835]
本稿では,事前学習した畳み込みニューラルネットモデルを用いて特徴抽出とコンテキストマイニングを行う方法について述べる。
我々は,高レベルの特徴から文脈特性を導出し,ビデオ異常検出法の性能をさらに向上させる。
論文 参考訳(メタデータ) (2020-10-06T00:26:14Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。