Fugu-MT 論文翻訳(概要): Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey

論文の概要: Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey

arxiv url: http://arxiv.org/abs/2211.10412v1
Date: Thu, 17 Nov 2022 05:05:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 15:18:59.897355
Title: Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey
Title（参考訳）: ディープラーニングによるビデオ教師なしドメイン適応:包括的調査
Authors: Yuecong Xu, Haozhi Cao, Zhenghua Chen, Xiaoli Li, Lihua Xie, Jianfei Yan
Abstract要約: 行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
参考スコア（独自算出の注目度）: 23.07416146904177
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Video analysis tasks such as action recognition have received increasing research interest with growing applications in fields such as smart healthcare, thanks to the introduction of large-scale datasets and deep learning-based representations. However, video models trained on existing datasets suffer from significant performance degradation when deployed directly to real-world applications due to domain shifts between the training public video datasets (source video domains) and real-world videos (target video domains). Further, with the high cost of video annotation, it is more practical to use unlabeled videos for training. To tackle performance degradation and address concerns in high video annotation cost uniformly, the video unsupervised domain adaptation (VUDA) is introduced to adapt video models from the labeled source domain to the unlabeled target domain by alleviating video domain shift, improving the generalizability and portability of video models. This paper surveys recent progress in VUDA with deep learning. We begin with the motivation of VUDA, followed by its definition, and recent progress of methods for both closed-set VUDA and VUDA under different scenarios, and current benchmark datasets for VUDA research. Eventually, future directions are provided to promote further VUDA research.
Abstract（参考訳）: 大規模データセットとディープラーニングに基づく表現の導入により、アクション認識などのビデオ分析タスクは、スマートヘルスケアなどの分野のアプリケーションの成長において、研究の関心が高まっている。しかし、既存のデータセットでトレーニングされたビデオモデルは、公開ビデオデータセット(ソースビデオドメイン)と実際のビデオ(ターゲットビデオドメイン)の間のドメインシフトのため、実世界のアプリケーションに直接デプロイした場合、パフォーマンスが著しく低下する。さらに,ビデオアノテーションのコストが高いため,未収録映像をトレーニングに使用する方が実用的である。ビデオアノテーションコストの均一化を図るため、ラベル付きソースドメインからラベル付きターゲットドメインへのビデオモデルを適応させるために、ビデオドメインシフトを緩和し、ビデオモデルの一般化性とポータビリティを向上させるために、ビデオアン教師付きドメイン適応(VUDA)を導入している。本稿では,深層学習によるVUDAの最近の進歩について調査する。 VUDAのモチベーションはVUDAの定義に続き、VUDAとVUDAの両方を異なるシナリオで扱う手法の最近の進歩と、VUDA研究のための現在のベンチマークデータセットから始まる。最終的には、さらなるVUDA研究を促進するための今後の方向性が提供される。

関連論文リスト

VUDG: A Dataset for Video Understanding Domain Generalization [29.27464392754555]
Video Understanding Domain Generalization (VUDG) は、ビデオ理解におけるDGのパフォーマンスを評価するために特別に設計された注釈付きデータセットである。 VUDGには、3つのタイプのドメインシフトをカバーする11の異なるドメインのビデオが含まれており、公正で意味のある評価を保証するために、異なるドメイン間のセマンティックな類似性を維持している。
論文参考訳（メタデータ） (2025-05-30T08:39:36Z)
Dynamic-Aware Video Distillation: Optimizing Temporal Resolution Based on Video Semantics [68.85010825225528]
ビデオデータセットは、時間的情報の存在と異なるクラスにまたがる様々なレベルの冗長性によって、ユニークな課題を示す。既存のDDアプローチでは、すべての異なるビデオセマンティクスにおける時間的冗長性を均一に仮定し、ビデオデータセットにおけるその有効性を制限している。合成ビデオの時間分解能を最適に予測するための強化学習(RL)アプローチである動的認識ビデオ蒸留(DAViD)を提案する。
論文参考訳（メタデータ） (2025-05-28T11:43:58Z)
Augmenting and Aligning Snippets for Few-Shot Video Domain Adaptation [22.097165083633175]
Video Unsupervised Domain Adaptation (VUDA)は、ビデオモデルの堅牢性と転送性を改善するために導入された。 FSVDA(Few-Shot Video-based Domain Adaptation)のシナリオでは,対象とするビデオサンプルをわずかに限定してビデオモデルを適用する。本稿では,FSVDAをスニペットレベルで処理するための新しいSSA2lignを提案する。
論文参考訳（メタデータ） (2023-03-18T16:33:56Z)
Exploring Domain Incremental Video Highlights Detection with the LiveFood Benchmark [12.151826076159134]
本稿では,GPE(Global Prototype)と呼ばれる新しいビデオハイライト検出手法を提案する。私たちの知る限りでは、インクリメンタルな学習環境でビデオハイライトの検出を探索するのはこれが初めてです。
論文参考訳（メタデータ） (2022-09-12T11:51:08Z)
Unsupervised Domain Adaptation for Video Transformers in Action Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。 UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文参考訳（メタデータ） (2022-07-26T12:17:39Z)
Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文参考訳（メタデータ） (2022-06-18T00:26:52Z)
VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。 VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文参考訳（メタデータ） (2022-05-18T16:50:45Z)
Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-07-23T07:18:20Z)
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。 CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文参考訳（メタデータ） (2021-04-01T06:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。