論文の概要: Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training
- arxiv url: http://arxiv.org/abs/2206.08801v1
- Date: Fri, 17 Jun 2022 14:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 14:10:55.356254
- Title: Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training
- Title(参考訳): 時空間補間整合性トレーニングによるビデオシャドウ検出
- Authors: Xiao Lu, Yihong Cao, Sheng Liu, Chengjiang Long, Zipei Chen, Xuanyu
Zhou, Yimin Yang, Chunxia Xiao
- Abstract要約: 本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
- 参考スコア(独自算出の注目度): 31.115226660100294
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is challenging to annotate large-scale datasets for supervised video
shadow detection methods. Using a model trained on labeled images to the video
frames directly may lead to high generalization error and temporal inconsistent
results. In this paper, we address these challenges by proposing a
Spatio-Temporal Interpolation Consistency Training (STICT) framework to
rationally feed the unlabeled video frames together with the labeled images
into an image shadow detection network training. Specifically, we propose the
Spatial and Temporal ICT, in which we define two new interpolation schemes,
\textit{i.e.}, the spatial interpolation and the temporal interpolation. We
then derive the spatial and temporal interpolation consistency constraints
accordingly for enhancing generalization in the pixel-wise classification task
and for encouraging temporal consistent predictions, respectively. In addition,
we design a Scale-Aware Network for multi-scale shadow knowledge learning in
images, and propose a scale-consistency constraint to minimize the discrepancy
among the predictions at different scales. Our proposed approach is extensively
validated on the ViSha dataset and a self-annotated dataset. Experimental
results show that, even without video labels, our approach is better than most
state of the art supervised, semi-supervised or unsupervised image/video shadow
detection methods and other methods in related tasks. Code and dataset are
available at \url{https://github.com/yihong-97/STICT}.
- Abstract(参考訳): 教師付きビデオシャドウ検出のための大規模データセットのアノテートは困難である。
ラベル付き画像に基づいてトレーニングされたモデルをビデオフレームに直接使用すると、高い一般化誤差と時間的矛盾が生じる可能性がある。
本稿では、ラベル付き画像とともにラベル付きビデオフレームを合理的に供給する時空間補間整合訓練(STICT)フレームワークを画像陰影検出ネットワークトレーニングに導入することで、これらの課題に対処する。
具体的には,空間補間と時間補間という2つの新しい補間スキームを定義できる空間補間法と時間補間法を提案する。
次に,空間的および時間的補間一貫性の制約を導出し,画素分割タスクの一般化と時間的一貫性の予測をそれぞれ奨励する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計し,異なるスケールでの予測の差を最小限に抑えるスケール一貫性制約を提案する。
提案手法は,ViShaデータセットと自己アノテートデータセットで広く検証されている。
実験の結果,映像ラベルがなくても,映像・映像のシャドウ検出手法や関連課題における他の手法よりも優れた手法が得られた。
コードとデータセットは \url{https://github.com/yihong-97/STICT} で入手できる。
関連論文リスト
- Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Learning Real-World Image De-Weathering with Imperfect Supervision [57.748585821252824]
既存の現実世界のデヒータリングデータセットは、接地トラス画像と入力された劣化画像の間に、一貫性のない照明、位置、テクスチャを示すことが多い。
我々は、入力劣化画像と可能な限り一貫性のある擬似ラベルを生成するための一貫性ラベルコンストラクタ(CLC)を開発した。
我々は,従来の不完全ラベルと擬似ラベルを組み合わせることで,情報割当戦略による脱ウェザリングモデルを共同で監督する。
論文 参考訳(メタデータ) (2023-10-23T14:02:57Z) - SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-04T06:41:33Z) - Unsupervised CD in satellite image time series by contrastive learning
and feature tracking [15.148034487267635]
特徴追跡を用いたコントラスト学習を用いた衛星画像時系列における教師なし変化検出のための2段階のアプローチを提案する。
事前学習したモデルから擬似ラベルを抽出し,特徴追跡を用いて画像時系列間で伝達することにより,擬似ラベルの一貫性を改善し,長期リモートセンシング画像時系列における季節変化の課題に対処する。
論文 参考訳(メタデータ) (2023-04-22T11:19:19Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。