論文の概要: Triple-cooperative Video Shadow Detection
- arxiv url: http://arxiv.org/abs/2103.06533v1
- Date: Thu, 11 Mar 2021 08:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 03:51:25.258867
- Title: Triple-cooperative Video Shadow Detection
- Title(参考訳): triple-cooperative video shadow detection
- Authors: Zhihao Chen, Liang Wan, Lei Zhu, Jia Shen, Huazhu Fu, Wennan Liu, Jing
Qin
- Abstract要約: 60のオブジェクトカテゴリ、さまざまな長さ、異なるモーション/照明条件をカバーする、11,685フレームの120のビデオを含む新しいビデオシャドウ検出データセットを収集します。
また、新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)も開発している。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
- 参考スコア(独自算出の注目度): 43.030759888063194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shadow detection in a single image has received significant research interest
in recent years. However, much fewer works have been explored in shadow
detection over dynamic scenes. The bottleneck is the lack of a well-established
dataset with high-quality annotations for video shadow detection. In this work,
we collect a new video shadow detection dataset, which contains 120 videos with
11, 685 frames, covering 60 object categories, varying lengths, and different
motion/lighting conditions. All the frames are annotated with a high-quality
pixel-level shadow mask. To the best of our knowledge, this is the first
learning-oriented dataset for video shadow detection. Furthermore, we develop a
new baseline model, named triple-cooperative video shadow detection network
(TVSD-Net). It utilizes triple parallel networks in a cooperative manner to
learn discriminative representations at intra-video and inter-video levels.
Within the network, a dual gated co-attention module is proposed to constrain
features from neighboring frames in the same video, while an auxiliary
similarity loss is introduced to mine semantic information between different
videos. Finally, we conduct a comprehensive study on ViSha, evaluating 12
state-of-the-art models (including single image shadow detectors, video object
segmentation, and saliency detection methods). Experiments demonstrate that our
model outperforms SOTA competitors.
- Abstract(参考訳): 単一の画像の影検出は、近年大きな研究関心を集めています。
しかし、ダイナミックシーンのシャドー検出では、より少ない作品が研究されている。
ボトルネックは、ビデオシャドウ検出のための高品質のアノテーションを備えた定評のあるデータセットがないことです。
そこで本研究では,11,685フレームの120の動画,60の対象カテゴリ,異なる長さ,異なる動き/照度条件を含むビデオ影検出データセットを新たに収集した。
すべてのフレームは高品質のピクセルレベルのシャドーマスクでアノテートされている。
私たちの知る限りでは、これはビデオシャドウ検出のための最初の学習指向データセットです。
さらに,新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)を開発した。
トリプル並列ネットワークを協調的に利用して、ビデオ内およびビデオ間レベルで識別表現を学習します。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
最後に、ViShaに関する包括的な研究を行い、12の最先端のモデル(単一の画像シャドーディテクタ、ビデオオブジェクトセグメンテーション、およびサリエンシー検出方法を含む)を評価します。
実験は、私たちのモデルがSOTAの競合他社を上回っていることを示しています。
関連論文リスト
- Semi-supervised 3D Video Information Retrieval with Deep Neural Network
and Bi-directional Dynamic-time Warping Algorithm [14.39527406033429]
提案アルゴリズムは,大規模なビデオデータセットを処理し,最も関連性の高い映像を検索ビデオクリップに検索するように設計されている。
候補と調査ビデオの両方を一連のクリップに分割し、各クリップをオートエンコーダ支援のディープニューラルネットワークを用いて表現ベクトルに変換する。
次に, 双方向動的時間ワープ法を用いて, 埋め込みベクトル列間の類似度を計算した。
論文 参考訳(メタデータ) (2023-09-03T03:10:18Z) - Detect Any Shadow: Segment Anything for Video Shadow Detection [105.19693622157462]
影を検出するためのセグメンテーションモデル(SAM)を微調整するフレームワークであるShadowSAMを提案する。
長時間の注意機構と組み合わせることで、効率的な映像陰影検出が可能となる。
提案手法は,従来のビデオシャドウ検出手法と比較して高速な推論速度を示す。
論文 参考訳(メタデータ) (2023-05-26T07:39:10Z) - Video Instance Shadow Detection Under the Sun and Sky [81.95848151121739]
ViShadowは、半教師付きビデオインスタンスのシャドウ検出フレームワークである。
クロスフレームペアリングのための対照的な学習を通じて、シャドーとオブジェクトインスタンスを識別する。
一時的な消失を管理するための検索機構が導入された。
論文 参考訳(メタデータ) (2022-11-23T10:20:19Z) - SCOTCH and SODA: A Transformer Video Shadow Detection Framework [12.42397422225366]
フレーム間の大きな影の変形のため、ビデオ内の影を検出するのは難しい。
本稿では,新しいタイプのビデオ自己注意モジュールであるSODA(Shadow deformation attention trajectory)を紹介する。
また、ネットワークを誘導し、統一された影表現を学習することを目的とした新しいシャドーコントラスト学習機構(SCOTCH)を提案する。
論文 参考訳(メタデータ) (2022-11-13T12:23:07Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Temporal Feature Warping for Video Shadow Detection [30.82493923485278]
本稿では,情報収集を時間的に改善する簡易かつ強力な手法を提案する。
我々は、光フローベースのワープモジュールを使用して、フレーム間の特徴を調整し、組み合わせます。
このワープモジュールを複数のディープ・ネットワーク・レイヤにまたがって適用し、局所的な詳細情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
論文 参考訳(メタデータ) (2021-07-29T19:12:50Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。