論文の概要: Video Instance Shadow Detection
- arxiv url: http://arxiv.org/abs/2211.12827v1
- Date: Wed, 23 Nov 2022 10:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:24:39.781457
- Title: Video Instance Shadow Detection
- Title(参考訳): ビデオインスタンスシャドー検出
- Authors: Zhenghao Xing, Tianyu Wang, Xiaowei Hu, Haoran Wu, Chi-Wing Fu,
Pheng-Ann Heng
- Abstract要約: ビデオインスタンスのシャドウ検出は、ビデオ内のペア化されたシャドウオブジェクト関連を同時に検出、セグメント化、関連付け、追跡することを目的としている。
ビデオ内のシャドーオブジェクト関連を,カテゴリ仕様なしでペアトラッキングで抽出する新しいフレームワークである-Trackを設計する。
我々はラベル付き画像と未ラベル付きビデオの両方を活用し、関連サイクルの整合性損失によって追跡能力を増強することで時間的コヒーレンスを探索する。
- 参考スコア(独自算出の注目度): 109.7945730608291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video instance shadow detection aims to simultaneously detect, segment,
associate, and track paired shadow-object associations in videos. This work has
three key contributions to the task. First, we design SSIS-Track, a new
framework to extract shadow-object associations in videos with paired tracking
and without category specification; especially, we strive to maintain paired
tracking even the objects/shadows are temporarily occluded for several frames.
Second, we leverage both labeled images and unlabeled videos, and explore
temporal coherence by augmenting the tracking ability via an association cycle
consistency loss to optimize SSIS-Track's performance. Last, we build
$\textit{SOBA-VID}$, a new dataset with 232 unlabeled videos of ${5,863}$
frames for training and 60 labeled videos of ${1,182}$ frames for testing.
Experimental results show that SSIS-Track surpasses baselines built from SOTA
video tracking and instance-shadow-detection methods by a large margin. In the
end, we showcase several video-level applications.
- Abstract(参考訳): ビデオインスタンスシャドー検出は、ビデオ中の対のシャドーオブジェクト関連を同時に検出、セグメンテーション、アソシエイト、追跡することを目的としている。
この仕事には3つの重要な貢献がある。
まずSSIS-Trackを設計する。これは、ビデオ内の影オブジェクト関連を、カテゴリー仕様なしで抽出する新しいフレームワークであり、特に、オブジェクトやシャドウが一時的にいくつかのフレームに隠されている場合でも、ペアトラッキングを維持するために努力する。
第2に,ラベル付き画像とラベル付きビデオの両方を利用し,連想サイクル一貫性損失による追跡能力の向上による時間的コヒーレンスを探索し,ssis-trackの性能を最適化する。
最後に、$\textit{soba-vid}$を構築します。新しいデータセットには、トレーニング用の${5,863}$ framesとテスト用の${1,182}$ framesというラベル付きビデオがあります。
SSIS-TrackはSOTAビデオトラッキングとインスタンスシャドウ検出法で構築したベースラインを大きなマージンで上回ることを示す実験結果を得た。
最後に、ビデオレベルのアプリケーションをいくつか紹介する。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Unveiling Deep Shadows: A Survey on Image and Video Shadow Detection, Removal, and Generation in the Era of Deep Learning [81.15890262168449]
光が障害物に遭遇すると影が形成され、照度が低下する。
コンピュータビジョンにおいて、影の検出、削除、生成はシーン理解の強化、画質の改善、映像編集における視覚的一貫性の確保、仮想環境の改善に不可欠である。
本稿では,過去10年間の深層学習環境における画像や映像の影の検出,削除,生成に関する総合的な調査を行い,課題,深層モデル,データセット,評価指標について紹介する。
論文 参考訳(メタデータ) (2024-09-03T17:59:05Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Triple-cooperative Video Shadow Detection [43.030759888063194]
60のオブジェクトカテゴリ、さまざまな長さ、異なるモーション/照明条件をカバーする、11,685フレームの120のビデオを含む新しいビデオシャドウ検出データセットを収集します。
また、新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)も開発している。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
論文 参考訳(メタデータ) (2021-03-11T08:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。