論文の概要: Domain Adaptive Video Segmentation via Temporal Pseudo Supervision
- arxiv url: http://arxiv.org/abs/2207.02372v1
- Date: Wed, 6 Jul 2022 00:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 13:59:36.080332
- Title: Domain Adaptive Video Segmentation via Temporal Pseudo Supervision
- Title(参考訳): 時間的擬似監督によるドメイン適応ビデオセグメンテーション
- Authors: Yun Xing, Dayan Guan, Jiaxing Huang, Shijian Lu
- Abstract要約: ビデオセマンティックセグメンテーションは、ラベル付きソースドメインから未ラベルのターゲットドメインに適応することで、制約をラベル付けするデータを緩和することができる。
我々は,対象映像から表現を効果的に表現するための一貫性トレーニングのアイデアを探索する,シンプルかつ効果的な方法である時間的擬似監督(TPS)を設計する。
TPSは実装が簡単で、訓練も安定しており、最先端技術と比較して優れた映像精度を実現する。
- 参考スコア(独自算出の注目度): 46.38660541271893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video semantic segmentation has achieved great progress under the supervision
of large amounts of labelled training data. However, domain adaptive video
segmentation, which can mitigate data labelling constraints by adapting from a
labelled source domain toward an unlabelled target domain, is largely
neglected. We design temporal pseudo supervision (TPS), a simple and effective
method that explores the idea of consistency training for learning effective
representations from unlabelled target videos. Unlike traditional consistency
training that builds consistency in spatial space, we explore consistency
training in spatiotemporal space by enforcing model consistency across
augmented video frames which helps learn from more diverse target data.
Specifically, we design cross-frame pseudo labelling to provide pseudo
supervision from previous video frames while learning from the augmented
current video frames. The cross-frame pseudo labelling encourages the network
to produce high-certainty predictions, which facilitates consistency training
with cross-frame augmentation effectively. Extensive experiments over multiple
public datasets show that TPS is simpler to implement, much more stable to
train, and achieves superior video segmentation accuracy as compared with the
state-of-the-art.
- Abstract(参考訳): ビデオセマンティックセグメンテーションは大量のラベル付きトレーニングデータの監督の下で大きな進歩を遂げた。
しかし、ラベル付きソースドメインからラベル付きターゲットドメインへ適応することにより、データラベリング制約を緩和できるドメイン適応ビデオセグメンテーションは、ほとんど無視されている。
本研究では, 時間的擬似監督 (TPS) を設計し, 効率のよい映像から効果的な表現を学習するための整合性トレーニングのアイデアを探索する。
空間空間における一貫性を構築する従来の一貫性トレーニングとは異なり、より多様なターゲットデータから学習するための拡張ビデオフレーム間でモデルの一貫性を強制することにより、時空間における一貫性トレーニングを検討する。
具体的には,最新の映像フレームから学習しながら,従来の映像フレームから疑似監督を行うクロスフレーム擬似ラベルの設計を行った。
クロスフレーム擬似ラベリングは、ネットワークが高い精度の予測を生成することを奨励し、クロスフレーム拡張による一貫性トレーニングを効果的に促進する。
複数の公開データセットに対する大規模な実験は、TPSの実装が簡単で、トレーニングがより安定していることを示し、最先端技術と比較して優れたビデオセグメンテーション精度を実現する。
関連論文リスト
- SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-04T06:41:33Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。