論文の概要: Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training
- arxiv url: http://arxiv.org/abs/2312.02914v3
- Date: Thu, 21 Mar 2024 13:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 19:37:15.586822
- Title: Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training
- Title(参考訳): Masked Pre-TrainingとCollaborative Self-Trainingによる教師なしビデオドメイン適応
- Authors: Arun Reddy, William Paul, Corban Rivera, Ketul Shah, Celso M. de Melo, Rama Chellappa,
- Abstract要約: 画像教師モデルを用いて,映像学生モデルを対象領域に適応させる。
UNITEは、まず自己教師付き事前訓練を使用して、ターゲットのドメインビデオ上で差別的特徴学習を促進する。
次に,ビデオ学生モデルとイメージ教師モデルを用いて,マスク付き対象データを用いた自己学習を行い,未ラベル対象ビデオのための改良された擬似ラベルを生成する。
- 参考スコア(独自算出の注目度): 32.257816070522885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we tackle the problem of unsupervised domain adaptation (UDA) for video action recognition. Our approach, which we call UNITE, uses an image teacher model to adapt a video student model to the target domain. UNITE first employs self-supervised pre-training to promote discriminative feature learning on target domain videos using a teacher-guided masked distillation objective. We then perform self-training on masked target data, using the video student model and image teacher model together to generate improved pseudolabels for unlabeled target videos. Our self-training process successfully leverages the strengths of both models to achieve strong transfer performance across domains. We evaluate our approach on multiple video domain adaptation benchmarks and observe significant improvements upon previously reported results.
- Abstract(参考訳): 本研究では,ビデオ行動認識における教師なし領域適応(UDA)の問題に取り組む。
我々のアプローチはUNITEと呼ばれ、画像教師モデルを用いてビデオ学生モデルを対象領域に適応させる。
UNITEは、教師が指導するマスク付き蒸留目標を用いて、まず自己指導型事前学習を用いて、ターゲットドメインビデオにおける差別的特徴学習を促進する。
次に,ビデオ学生モデルとイメージ教師モデルを用いて,マスク付き対象データを用いた自己学習を行い,未ラベル対象ビデオのための改良された擬似ラベルを生成する。
我々の自己学習プロセスは、ドメイン間の強い転送性能を達成するために、両方のモデルの強みをうまく活用する。
我々は、複数のビデオ領域適応ベンチマークに対するアプローチを評価し、これまでに報告された結果に対する大幅な改善を観察する。
関連論文リスト
- Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Mean Teacher DETR with Masked Feature Alignment: A Robust Domain
Adaptive Detection Transformer Framework [41.998727427261734]
平均教師に基づく2段階特徴アライメント法は、事前訓練段階と自己学習段階とからなる。
事前訓練段階では,画像スタイルの転送によって生成されたラベル付きターゲットライクな画像を用いて,性能変動を回避する。
自己学習の段階では、平均教師に基づく擬似ラベルによるラベル付き対象画像を活用する。
論文 参考訳(メタデータ) (2023-10-24T09:07:47Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - DAVOS: Semi-Supervised Video Object Segmentation via Adversarial Domain
Adaptation [2.9407987406005263]
ドメインシフトは常にビデオオブジェクトセグメンテーション(VOS)の主要な問題のひとつです。
本稿では, VOSタスクに対向領域適応を導入することで, ドメインシフトに対処する新しい手法を提案する。
DAVIS2016では,教師付きトレーニング後のIoUスコアが82.6%であった。
論文 参考訳(メタデータ) (2021-05-21T08:23:51Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。