論文の概要: Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2211.10412v3
- Date: Sat, 27 Jul 2024 14:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:26:28.728190
- Title: Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey
- Title(参考訳): ディープラーニングによるビデオ教師なしドメイン適応:包括的調査
- Authors: Yuecong Xu, Haozhi Cao, Zhenghua Chen, Xiaoli Li, Lihua Xie, Jianfei Yang,
- Abstract要約: 行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
- 参考スコア(独自算出の注目度): 42.22801056661226
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video analysis tasks such as action recognition have received increasing research interest with growing applications in fields such as smart healthcare, thanks to the introduction of large-scale datasets and deep learning-based representations. However, video models trained on existing datasets suffer from significant performance degradation when deployed directly to real-world applications due to domain shifts between the training public video datasets (source video domains) and real-world videos (target video domains). Further, with the high cost of video annotation, it is more practical to use unlabeled videos for training. To tackle performance degradation and address concerns in high video annotation cost uniformly, the video unsupervised domain adaptation (VUDA) is introduced to adapt video models from the labeled source domain to the unlabeled target domain by alleviating video domain shift, improving the generalizability and portability of video models. This paper surveys recent progress in VUDA with deep learning. We begin with the motivation of VUDA, followed by its definition, and recent progress of methods for both closed-set VUDA and VUDA under different scenarios, and current benchmark datasets for VUDA research. Eventually, future directions are provided to promote further VUDA research. The repository of this survey is provided at https://github.com/xuyu0010/awesome-video-domain-adaptation.
- Abstract(参考訳): 行動認識などのビデオ分析タスクは、大規模データセットの導入やディープラーニングに基づく表現の導入により、スマートヘルスケアなどの分野の応用が拡大する中で、研究の関心が高まっている。
しかし、既存のデータセットでトレーニングされたビデオモデルは、トレーニングされたパブリックビデオデータセット(ソースビデオドメイン)と実際のビデオ(ターゲットビデオドメイン)の間のドメインシフトによって、現実世界のアプリケーションに直接デプロイされた場合、大幅なパフォーマンス劣化に悩まされる。
さらに,ビデオアノテーションのコストが高くなると,未ラベル映像をトレーニングに利用することがより現実的になる。
ビデオドメインシフトを緩和し、ビデオモデルの一般化性とポータビリティを向上させることにより、ラベル付きソースドメインからラベル付きターゲットドメインへのビデオモデルを適応させるため、ビデオアノテーションコストの均一なパフォーマンス劣化と対処を行うために、ビデオアン教師付きドメイン適応(VUDA)を導入している。
本稿では,深層学習によるVUDAの最近の進歩について調査する。
VUDAのモチベーションはVUDAの定義に続き、VUDAとVUDAの両方を異なるシナリオで扱う手法の最近の進歩と、VUDA研究のための現在のベンチマークデータセットから始まる。
最終的には、さらなるVUDA研究を促進するための今後の方向性が提供される。
この調査のリポジトリはhttps://github.com/xuyu0010/awesome-video- domain-adaptationにある。
関連論文リスト
- Augmenting and Aligning Snippets for Few-Shot Video Domain Adaptation [22.097165083633175]
Video Unsupervised Domain Adaptation (VUDA)は、ビデオモデルの堅牢性と転送性を改善するために導入された。
FSVDA(Few-Shot Video-based Domain Adaptation)のシナリオでは,対象とするビデオサンプルをわずかに限定してビデオモデルを適用する。
本稿では,FSVDAをスニペットレベルで処理するための新しいSSA2lignを提案する。
論文 参考訳(メタデータ) (2023-03-18T16:33:56Z) - Exploring Domain Incremental Video Highlights Detection with the
LiveFood Benchmark [12.151826076159134]
本稿では,GPE(Global Prototype)と呼ばれる新しいビデオハイライト検出手法を提案する。
私たちの知る限りでは、インクリメンタルな学習環境でビデオハイライトの検出を探索するのはこれが初めてです。
論文 参考訳(メタデータ) (2022-09-12T11:51:08Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。