論文の概要: Detect Any Shadow: Segment Anything for Video Shadow Detection
- arxiv url: http://arxiv.org/abs/2305.16698v2
- Date: Wed, 1 Nov 2023 11:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:42:58.377466
- Title: Detect Any Shadow: Segment Anything for Video Shadow Detection
- Title(参考訳): シャドウ検出:ビデオシャドウ検出のためのセグメンテーション
- Authors: Yonghui Wang, Wengang Zhou, Yunyao Mao, Houqiang Li
- Abstract要約: 影を検出するためのセグメンテーションモデル(SAM)を微調整するフレームワークであるShadowSAMを提案する。
長時間の注意機構と組み合わせることで、効率的な映像陰影検出が可能となる。
提案手法は,従来のビデオシャドウ検出手法と比較して高速な推論速度を示す。
- 参考スコア(独自算出の注目度): 105.19693622157462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment anything model (SAM) has achieved great success in the field of
natural image segmentation. Nevertheless, SAM tends to consider shadows as
background and therefore does not perform segmentation on them. In this paper,
we propose ShadowSAM, a simple yet effective framework for fine-tuning SAM to
detect shadows. Besides, by combining it with long short-term attention
mechanism, we extend its capability for efficient video shadow detection.
Specifically, we first fine-tune SAM on ViSha training dataset by utilizing the
bounding boxes obtained from the ground truth shadow mask. Then during the
inference stage, we simulate user interaction by providing bounding boxes to
detect a specific frame (e.g., the first frame). Subsequently, using the
detected shadow mask as a prior, we employ a long short-term network to learn
spatial correlations between distant frames and temporal consistency between
adjacent frames, thereby achieving precise shadow information propagation
across video frames. Extensive experimental results demonstrate the
effectiveness of our method, with notable margin over the state-of-the-art
approaches in terms of MAE and IoU metrics. Moreover, our method exhibits
accelerated inference speed compared to previous video shadow detection
approaches, validating the effectiveness and efficiency of our method. The
source code is now publicly available at
https://github.com/harrytea/Detect-AnyShadow.
- Abstract(参考訳): Segment Any Model (SAM) は自然画像セグメンテーションの分野で大きな成功を収めた。
それでもSAMは、影を背景と見なす傾向にあり、したがってそれらにセグメンテーションを行わない。
本稿では,影検出のためのSAMを微調整するための簡易かつ効果的なフレームワークであるShadowSAMを提案する。
さらに, 長時間の注意機構と組み合わせることで, 効率的な映像シャドー検出機能を拡張する。
具体的には、地上の真実影マスクから得られた境界ボックスを利用して、ViShaトレーニングデータセット上でSAMを微調整する。
そして、推論段階では、特定のフレーム(例えば、第1のフレーム)を検出するバウンディングボックスを提供することで、ユーザインタラクションをシミュレートする。
その後,検出したシャドウマスクを先行として,遠隔フレーム間の空間的相関と隣接フレーム間の時間的一貫性を学習し,映像フレーム間の正確なシャドウ情報伝達を実現する。
本手法の有効性を実証し,MAEおよびIoU測定値における最先端手法よりも有意な差が認められた。
また,従来の映像シャドウ検出手法と比較して,推定速度を高速化し,その効果と効率を検証した。
ソースコードはhttps://github.com/harrytea/Detect-AnyShadowで公開されている。
関連論文リスト
- Timeline and Boundary Guided Diffusion Network for Video Shadow Detection [22.173407949204137]
ビデオシャドウ検出(VSD)は、フレームシーケンスでシャドウマスクを検出することを目的としている。
そこで本研究では,VSD のための Timeline and boundary Guided Diffusion (TBGDiff) ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:16:21Z) - SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Learning Shadow Correspondence for Video Shadow Detection [42.1593380820498]
本稿では,ビデオシャドウ検出のためのフレーム間の特定のシャドウ領域の画素単位の類似性を高めるための新しいシャドウ一貫性対応法(SC-Cor)を提案する。
SC-Corは、余分な計算コストなしで既存のシャドウ検出器に簡単に統合できるプラグアンドプレイモジュールである。
実験結果から, SC-CorはIoUでは6.51%, 新たに導入された時間安定度では3.35%, 従来の最先端法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-30T06:30:42Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection [64.10636296274168]
現在のシャドウ検出方法は、小さく、不明瞭で、ぼやけたエッジを持つシャドウ領域を検出する際には、性能が良くない。
本稿では,深層ニューラルネットワークを修復訓練(シャドウ除去)するRestore to Detect(R2D)という新しい手法を提案する。
提案手法は,近年の手法に比べて微妙なコンテキストの検出が可能でありながら,影検出性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-20T15:09:22Z) - Temporal Feature Warping for Video Shadow Detection [30.82493923485278]
本稿では,情報収集を時間的に改善する簡易かつ強力な手法を提案する。
我々は、光フローベースのワープモジュールを使用して、フレーム間の特徴を調整し、組み合わせます。
このワープモジュールを複数のディープ・ネットワーク・レイヤにまたがって適用し、局所的な詳細情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
論文 参考訳(メタデータ) (2021-07-29T19:12:50Z) - Triple-cooperative Video Shadow Detection [43.030759888063194]
60のオブジェクトカテゴリ、さまざまな長さ、異なるモーション/照明条件をカバーする、11,685フレームの120のビデオを含む新しいビデオシャドウ検出データセットを収集します。
また、新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)も開発している。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
論文 参考訳(メタデータ) (2021-03-11T08:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。