論文の概要: Video Instance Shadow Detection Under the Sun and Sky
- arxiv url: http://arxiv.org/abs/2211.12827v3
- Date: Tue, 24 Sep 2024 05:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:35:37.509190
- Title: Video Instance Shadow Detection Under the Sun and Sky
- Title(参考訳): 太陽と空の下のビデオケースシャドウ検出
- Authors: Zhenghao Xing, Tianyu Wang, Xiaowei Hu, Haoran Wu, Chi-Wing Fu, Pheng-Ann Heng,
- Abstract要約: ViShadowは、半教師付きビデオインスタンスのシャドウ検出フレームワークである。
クロスフレームペアリングのための対照的な学習を通じて、シャドーとオブジェクトインスタンスを識別する。
一時的な消失を管理するための検索機構が導入された。
- 参考スコア(独自算出の注目度): 81.95848151121739
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instance shadow detection, crucial for applications such as photo editing and light direction estimation, has undergone significant advancements in predicting shadow instances, object instances, and their associations. The extension of this task to videos presents challenges in annotating diverse video data and addressing complexities arising from occlusion and temporary disappearances within associations. In response to these challenges, we introduce ViShadow, a semi-supervised video instance shadow detection framework that leverages both labeled image data and unlabeled video data for training. ViShadow features a two-stage training pipeline: the first stage, utilizing labeled image data, identifies shadow and object instances through contrastive learning for cross-frame pairing. The second stage employs unlabeled videos, incorporating an associated cycle consistency loss to enhance tracking ability. A retrieval mechanism is introduced to manage temporary disappearances, ensuring tracking continuity. The SOBA-VID dataset, comprising unlabeled training videos and labeled testing videos, along with the SOAP-VID metric, is introduced for the quantitative evaluation of VISD solutions. The effectiveness of ViShadow is further demonstrated through various video-level applications such as video inpainting, instance cloning, shadow editing, and text-instructed shadow-object manipulation.
- Abstract(参考訳): 写真編集や光方向推定などのアプリケーションに不可欠なインスタンスのシャドー検出は、シャドーインスタンス、オブジェクトインスタンス、およびそれらの関連性を予測する上で大きな進歩を遂げている。
このタスクの動画への拡張は、様々なビデオデータに注釈を付けることや、協会内の隠蔽や一時的な消滅に起因する複雑さに対処することの課題を示す。
これらの課題に対応するために、ラベル付き画像データとラベルなしビデオデータの両方を活用する半教師付きビデオインスタンスシャドウ検出フレームワークViShadowを紹介した。
ViShadowは2段階のトレーニングパイプラインを備えている。第1ステージはラベル付きイメージデータを利用して、クロスフレームペアリングのための対照的な学習を通じて、シャドーとオブジェクトインスタンスを識別する。
第2段階ではラベルのないビデオが採用され、追跡能力を高めるために関連するサイクル一貫性の損失が組み込まれている。
一時的な消失を管理し、追跡継続性を確保するための検索機構が導入された。
ラベル付きトレーニングビデオとラベル付きテストビデオと、SOAP-VIDメトリックを含むSOBA-VIDデータセットを、VISDソリューションの定量的評価のために導入する。
ViShadowの有効性は、ビデオインペインティング、インスタンスクローン、シャドウ編集、テキストインストラクションされたシャドウオブジェクト操作など、様々なビデオレベルのアプリケーションを通じてさらに実証されている。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Unveiling Deep Shadows: A Survey on Image and Video Shadow Detection, Removal, and Generation in the Era of Deep Learning [81.15890262168449]
光が障害物に遭遇すると影が形成され、照度が低下する。
コンピュータビジョンにおいて、影の検出、削除、生成はシーン理解の強化、画質の改善、映像編集における視覚的一貫性の確保、仮想環境の改善に不可欠である。
本稿では,過去10年間の深層学習環境における画像や映像の影の検出,削除,生成に関する総合的な調査を行い,課題,深層モデル,データセット,評価指標について紹介する。
論文 参考訳(メタデータ) (2024-09-03T17:59:05Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Triple-cooperative Video Shadow Detection [43.030759888063194]
60のオブジェクトカテゴリ、さまざまな長さ、異なるモーション/照明条件をカバーする、11,685フレームの120のビデオを含む新しいビデオシャドウ検出データセットを収集します。
また、新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)も開発している。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
論文 参考訳(メタデータ) (2021-03-11T08:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。