論文の概要: Timeline and Boundary Guided Diffusion Network for Video Shadow Detection
- arxiv url: http://arxiv.org/abs/2408.11785v1
- Date: Wed, 21 Aug 2024 17:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:08:22.546451
- Title: Timeline and Boundary Guided Diffusion Network for Video Shadow Detection
- Title(参考訳): ビデオシャドウ検出のための時間・境界誘導拡散ネットワーク
- Authors: Haipeng Zhou, Honqiu Wang, Tian Ye, Zhaohu Xing, Jun Ma, Ping Li, Qiong Wang, Lei Zhu,
- Abstract要約: ビデオシャドウ検出(VSD)は、フレームシーケンスでシャドウマスクを検出することを目的としている。
そこで本研究では,VSD のための Timeline and boundary Guided Diffusion (TBGDiff) ネットワークを提案する。
- 参考スコア(独自算出の注目度): 22.173407949204137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Shadow Detection (VSD) aims to detect the shadow masks with frame sequence. Existing works suffer from inefficient temporal learning. Moreover, few works address the VSD problem by considering the characteristic (i.e., boundary) of shadow. Motivated by this, we propose a Timeline and Boundary Guided Diffusion (TBGDiff) network for VSD where we take account of the past-future temporal guidance and boundary information jointly. In detail, we design a Dual Scale Aggregation (DSA) module for better temporal understanding by rethinking the affinity of the long-term and short-term frames for the clipped video. Next, we introduce Shadow Boundary Aware Attention (SBAA) to utilize the edge contexts for capturing the characteristics of shadows. Moreover, we are the first to introduce the Diffusion model for VSD in which we explore a Space-Time Encoded Embedding (STEE) to inject the temporal guidance for Diffusion to conduct shadow detection. Benefiting from these designs, our model can not only capture the temporal information but also the shadow property. Extensive experiments show that the performance of our approach overtakes the state-of-the-art methods, verifying the effectiveness of our components. We release the codes, weights, and results at \url{https://github.com/haipengzhou856/TBGDiff}.
- Abstract(参考訳): ビデオシャドウ検出(VSD)は、フレームシーケンスでシャドウマスクを検出することを目的としている。
現存する作品は、非効率な時間学習に悩まされている。
さらに、影の特性(すなわち境界)を考慮することでVSD問題に対処する研究はほとんどない。
そこで本稿では,過去の時間的ガイダンスと境界情報の併用を考慮した,VSDのためのTimeline and boundary Guided Diffusion (TBGDiff) ネットワークを提案する。
本稿では,ビデオクリップの長期フレームと短期フレームの親和性を再考することにより,時間的理解を深めるDual Scale Aggregation (DSA) モジュールを設計する。
次に,シャドーバウンダリ・アウェア・アテンション(SBAA)を導入し,シャドーの特性を捉えるためにエッジコンテキストを利用する。
さらに,我々は,空間時間符号化埋め込み (STEE) を探索し,影検出を行うための拡散の時間的ガイダンスを注入する,VSDの拡散モデルを導入する。
これらの設計に相応しいので、われわれのモデルは時間的情報だけでなく、影の性質も捉えることができる。
大規模な実験により、我々の手法は最先端の手法を超越し、我々のコンポーネントの有効性を検証した。
We release the codes, weights and results at \url{https://github.com/haipengzhou856/TBGDiff}
関連論文リスト
- SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation [80.13343299606146]
そこで本稿では, 時系列LiDARアグリゲーション・蒸留(TLAD)アルゴリズムを提案する。
時間画像のフル活用を目的として,カメラFOVを大幅に拡張できるTIAFモジュールを設計した。
また,静的移動スイッチ拡張(SMSA)アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替える。
論文 参考訳(メタデータ) (2024-07-13T03:00:16Z) - Detect Any Shadow: Segment Anything for Video Shadow Detection [105.19693622157462]
影を検出するためのセグメンテーションモデル(SAM)を微調整するフレームワークであるShadowSAMを提案する。
長時間の注意機構と組み合わせることで、効率的な映像陰影検出が可能となる。
提案手法は,従来のビデオシャドウ検出手法と比較して高速な推論速度を示す。
論文 参考訳(メタデータ) (2023-05-26T07:39:10Z) - SCOTCH and SODA: A Transformer Video Shadow Detection Framework [12.42397422225366]
フレーム間の大きな影の変形のため、ビデオ内の影を検出するのは難しい。
本稿では,新しいタイプのビデオ自己注意モジュールであるSODA(Shadow deformation attention trajectory)を紹介する。
また、ネットワークを誘導し、統一された影表現を学習することを目的とした新しいシャドーコントラスト学習機構(SCOTCH)を提案する。
論文 参考訳(メタデータ) (2022-11-13T12:23:07Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection [64.10636296274168]
現在のシャドウ検出方法は、小さく、不明瞭で、ぼやけたエッジを持つシャドウ領域を検出する際には、性能が良くない。
本稿では,深層ニューラルネットワークを修復訓練(シャドウ除去)するRestore to Detect(R2D)という新しい手法を提案する。
提案手法は,近年の手法に比べて微妙なコンテキストの検出が可能でありながら,影検出性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-20T15:09:22Z) - Temporal Feature Warping for Video Shadow Detection [30.82493923485278]
本稿では,情報収集を時間的に改善する簡易かつ強力な手法を提案する。
我々は、光フローベースのワープモジュールを使用して、フレーム間の特徴を調整し、組み合わせます。
このワープモジュールを複数のディープ・ネットワーク・レイヤにまたがって適用し、局所的な詳細情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
論文 参考訳(メタデータ) (2021-07-29T19:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。