論文の概要: Temporal Feature Warping for Video Shadow Detection
- arxiv url: http://arxiv.org/abs/2107.14287v1
- Date: Thu, 29 Jul 2021 19:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 21:15:17.065784
- Title: Temporal Feature Warping for Video Shadow Detection
- Title(参考訳): ビデオシャドウ検出のための時間的特徴ワープ
- Authors: Shilin Hu, Hieu Le, Dimitris Samaras
- Abstract要約: 本稿では,情報収集を時間的に改善する簡易かつ強力な手法を提案する。
我々は、光フローベースのワープモジュールを使用して、フレーム間の特徴を調整し、組み合わせます。
このワープモジュールを複数のディープ・ネットワーク・レイヤにまたがって適用し、局所的な詳細情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
- 参考スコア(独自算出の注目度): 30.82493923485278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While single image shadow detection has been improving rapidly in recent
years, video shadow detection remains a challenging task due to data scarcity
and the difficulty in modelling temporal consistency. The current video shadow
detection method achieves this goal via co-attention, which mostly exploits
information that is temporally coherent but is not robust in detecting moving
shadows and small shadow regions. In this paper, we propose a simple but
powerful method to better aggregate information temporally. We use an optical
flow based warping module to align and then combine features between frames. We
apply this warping module across multiple deep-network layers to retrieve
information from neighboring frames including both local details and high-level
semantic information. We train and test our framework on the ViSha dataset.
Experimental results show that our model outperforms the state-of-the-art video
shadow detection method by 28%, reducing BER from 16.7 to 12.0.
- Abstract(参考訳): 近年,シングルイメージシャドウ検出は急速に改善されているが,データ不足や時間的一貫性のモデル化が難しいため,ビデオシャドウ検出は依然として困難な課題である。
現在のビデオシャドウ検出法は、時間的コヒーレントであるが、移動するシャドウや小さなシャドウ領域を検出できない情報を利用するコアテンションによってこの目標を達成する。
本稿では,情報を時間的によりよく集約する,シンプルだが強力な手法を提案する。
光フローベースのワーピングモジュールを使用して、フレーム間の特徴の調整と結合を行います。
このワープモジュールを複数のディープネットワーク層にまたがって適用し、ローカル情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
ViShaデータセットでフレームワークをトレーニングし、テストします。
実験の結果,本モデルは最先端ビデオシャドー検出法を28%上回り,berを16.7から12.0に削減した。
関連論文リスト
- Timeline and Boundary Guided Diffusion Network for Video Shadow Detection [22.173407949204137]
ビデオシャドウ検出(VSD)は、フレームシーケンスでシャドウマスクを検出することを目的としている。
そこで本研究では,VSD のための Timeline and boundary Guided Diffusion (TBGDiff) ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:16:21Z) - SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - Detect Any Shadow: Segment Anything for Video Shadow Detection [105.19693622157462]
影を検出するためのセグメンテーションモデル(SAM)を微調整するフレームワークであるShadowSAMを提案する。
長時間の注意機構と組み合わせることで、効率的な映像陰影検出が可能となる。
提案手法は,従来のビデオシャドウ検出手法と比較して高速な推論速度を示す。
論文 参考訳(メタデータ) (2023-05-26T07:39:10Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection [64.10636296274168]
現在のシャドウ検出方法は、小さく、不明瞭で、ぼやけたエッジを持つシャドウ領域を検出する際には、性能が良くない。
本稿では,深層ニューラルネットワークを修復訓練(シャドウ除去)するRestore to Detect(R2D)という新しい手法を提案する。
提案手法は,近年の手法に比べて微妙なコンテキストの検出が可能でありながら,影検出性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-20T15:09:22Z) - Triple-cooperative Video Shadow Detection [43.030759888063194]
60のオブジェクトカテゴリ、さまざまな長さ、異なるモーション/照明条件をカバーする、11,685フレームの120のビデオを含む新しいビデオシャドウ検出データセットを収集します。
また、新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)も開発している。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
論文 参考訳(メタデータ) (2021-03-11T08:54:19Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。