論文の概要: MUSTAN: Multi-scale Temporal Context as Attention for Robust Video
Foreground Segmentation
- arxiv url: http://arxiv.org/abs/2402.00918v1
- Date: Thu, 1 Feb 2024 13:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:18:20.639252
- Title: MUSTAN: Multi-scale Temporal Context as Attention for Robust Video
Foreground Segmentation
- Title(参考訳): MUSTAN:ロバストビデオフォアグラウンドセグメンテーションの注意点としてのマルチスケールテンポラルコンテキスト
- Authors: Praveen Kumar Pokala, Jaya Sai Kiran Patibandla, Naveen Kumar Pandey,
and Balakrishna Reddy Pailla
- Abstract要約: ビデオフォアグラウンドセグメンテーション(VFS)は、背景からの動作下でオブジェクトをセグメンテーションすることを目的とした重要なコンピュータビジョンタスクである。
現在の手法のほとんどはイメージベースであり、動きの手がかりを無視しながら空間的な手がかりにのみ依存している。
本稿では,映像データからの時間情報と空間的手がかりを利用してOOD性能を向上させる。
- 参考スコア(独自算出の注目度): 2.2232550112727267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video foreground segmentation (VFS) is an important computer vision task
wherein one aims to segment the objects under motion from the background. Most
of the current methods are image-based, i.e., rely only on spatial cues while
ignoring motion cues. Therefore, they tend to overfit the training data and
don't generalize well to out-of-domain (OOD) distribution. To solve the above
problem, prior works exploited several cues such as optical flow, background
subtraction mask, etc. However, having a video data with annotations like
optical flow is a challenging task. In this paper, we utilize the temporal
information and the spatial cues from the video data to improve OOD
performance. However, the challenge lies in how we model the temporal
information given the video data in an interpretable way creates a very
noticeable difference. We therefore devise a strategy that integrates the
temporal context of the video in the development of VFS. Our approach give rise
to deep learning architectures, namely MUSTAN1 and MUSTAN2 and they are based
on the idea of multi-scale temporal context as an attention, i.e., aids our
models to learn better representations that are beneficial for VFS. Further, we
introduce a new video dataset, namely Indoor Surveillance Dataset (ISD) for
VFS. It has multiple annotations on a frame level such as foreground binary
mask, depth map, and instance semantic annotations. Therefore, ISD can benefit
other computer vision tasks. We validate the efficacy of our architectures and
compare the performance with baselines. We demonstrate that proposed methods
significantly outperform the benchmark methods on OOD. In addition, the
performance of MUSTAN2 is significantly improved on certain video categories on
OOD data due to ISD.
- Abstract(参考訳): ビデオフォアグラウンドセグメンテーション(VFS)は、背景からの動作下でオブジェクトをセグメンテーションすることを目的とした重要なコンピュータビジョンタスクである。
現在の手法のほとんどは画像ベースで、空間的手がかりのみに依存するが、動きの手がかりは無視されている。
したがって、トレーニングデータに過度に適合し、ドメイン外分布(OOD)にうまく一般化しない傾向があります。
上記の問題を解決するために、先行研究は光学フローや背景減算マスクなどのいくつかの手がかりを利用した。
しかし、光学フローのような注釈付きビデオデータを持つことは難しい課題である。
本稿では,映像データからの時間情報と空間的手がかりを利用してOOD性能を向上させる。
しかし、ビデオデータが解釈可能な方法で与えられると、時間的情報をどのようにモデル化するかが課題となっている。
そこで我々は,vfsの開発において映像の時間的文脈を統合する戦略を考案する。
このアプローチは、深層学習アーキテクチャ、すなわちmustan1とmustan2を生み出し、マルチスケールの時間的文脈を注意として、モデルがvfsに有益であるより良い表現を学ぶのを支援する、という考え方に基づいています。
さらに、VFSのための新しいビデオデータセットであるIndoor Surveillance Dataset (ISD)を導入する。
前景のバイナリマスク、深さマップ、インスタンスのセマンティックアノテーションなど、フレームレベルで複数のアノテーションがある。
そのため、isdは他のコンピュータビジョンのタスクにも役立つ。
アーキテクチャの有効性を検証するとともに,性能をベースラインと比較する。
提案手法はOODのベンチマーク手法よりも有意に優れていることを示す。
さらに, MUSTAN2の性能は, ISDによるOODデータ上の特定のビデオカテゴリで有意に向上した。
関連論文リスト
- Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - SSAN: Separable Self-Attention Network for Video Representation Learning [11.542048296046524]
本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-05-27T10:02:04Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。