論文の概要: Detect Any Shadow: Segment Anything for Video Shadow Detection
- arxiv url: http://arxiv.org/abs/2305.16698v1
- Date: Fri, 26 May 2023 07:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:32:12.056992
- Title: Detect Any Shadow: Segment Anything for Video Shadow Detection
- Title(参考訳): シャドウ検出:ビデオシャドウ検出のためのセグメンテーション
- Authors: Yonghui Wang, Wengang Zhou, Yunyao Mao, Houqiang Li
- Abstract要約: Segment Any Model (SAM) は、影を背景として分類する傾向がある。
本稿では,影検出のためのSAMの微調整法を提案する。
また、長時間の注意機構と組み合わせて、その能力をビデオシャドウ検出に拡張する。
- 参考スコア(独自算出の注目度): 128.19212716007794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment anything model (SAM) has achieved great success in the field of
natural image segmentation. Nevertheless, SAM tends to classify shadows as
background, resulting in poor segmentation performance for shadow detection
task. In this paper, we propose an simple but effective approach for fine
tuning SAM to detect shadows. Additionally, we also combine it with long
short-term attention mechanism to extend its capabilities to video shadow
detection. Specifically, we first fine tune SAM by utilizing shadow data
combined with sparse prompts and apply the fine-tuned model to detect a
specific frame (e.g., first frame) in the video with a little user assistance.
Subsequently, using the detected frame as a reference, we employ a long
short-term network to learn spatial correlations between distant frames and
temporal consistency between contiguous frames, thereby achieving shadow
information propagation across frames. Extensive experimental results
demonstrate that our method outperforms the state-of-the-art techniques, with
improvements of 17.2% and 3.3% in terms of MAE and IoU, respectively,
validating the effectiveness of our method.
- Abstract(参考訳): Segment Any Model (SAM) は自然画像セグメンテーションの分野で大きな成功を収めた。
それでもsamはシャドウを背景として分類する傾向があり、シャドウ検出タスクのセグメンテーション性能が低下する。
本稿では,サムを微調整して影を検出するための簡易かつ効果的な手法を提案する。
さらに,ビデオシャドウ検出機能を拡張するために,長期間のアテンション機構と組み合わせることも行った。
具体的には、まずシャドウデータとスパースプロンプトを組み合わせてSAMを微調整し、微調整モデルを適用してビデオ中の特定のフレーム(例えば、第1フレーム)を少しのユーザアシストで検出する。
その後,検出したフレームを基準として,遠隔フレーム間の空間的相関と連続フレーム間の時間的一貫性を学習し,フレーム間の影情報伝達を実現する。
その結果,本手法は,MAEとIoUでそれぞれ17.2%,IoUで3.3%向上し,最先端技術よりも優れており,本手法の有効性が検証された。
関連論文リスト
- Timeline and Boundary Guided Diffusion Network for Video Shadow Detection [22.173407949204137]
ビデオシャドウ検出(VSD)は、フレームシーケンスでシャドウマスクを検出することを目的としている。
そこで本研究では,VSD のための Timeline and boundary Guided Diffusion (TBGDiff) ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:16:21Z) - SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Learning Shadow Correspondence for Video Shadow Detection [42.1593380820498]
本稿では,ビデオシャドウ検出のためのフレーム間の特定のシャドウ領域の画素単位の類似性を高めるための新しいシャドウ一貫性対応法(SC-Cor)を提案する。
SC-Corは、余分な計算コストなしで既存のシャドウ検出器に簡単に統合できるプラグアンドプレイモジュールである。
実験結果から, SC-CorはIoUでは6.51%, 新たに導入された時間安定度では3.35%, 従来の最先端法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-30T06:30:42Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection [64.10636296274168]
現在のシャドウ検出方法は、小さく、不明瞭で、ぼやけたエッジを持つシャドウ領域を検出する際には、性能が良くない。
本稿では,深層ニューラルネットワークを修復訓練(シャドウ除去)するRestore to Detect(R2D)という新しい手法を提案する。
提案手法は,近年の手法に比べて微妙なコンテキストの検出が可能でありながら,影検出性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-20T15:09:22Z) - Temporal Feature Warping for Video Shadow Detection [30.82493923485278]
本稿では,情報収集を時間的に改善する簡易かつ強力な手法を提案する。
我々は、光フローベースのワープモジュールを使用して、フレーム間の特徴を調整し、組み合わせます。
このワープモジュールを複数のディープ・ネットワーク・レイヤにまたがって適用し、局所的な詳細情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
論文 参考訳(メタデータ) (2021-07-29T19:12:50Z) - Triple-cooperative Video Shadow Detection [43.030759888063194]
60のオブジェクトカテゴリ、さまざまな長さ、異なるモーション/照明条件をカバーする、11,685フレームの120のビデオを含む新しいビデオシャドウ検出データセットを収集します。
また、新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)も開発している。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
論文 参考訳(メタデータ) (2021-03-11T08:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。