論文の概要: Unsupervised Video Domain Adaptation: A Disentanglement Perspective
- arxiv url: http://arxiv.org/abs/2208.07365v1
- Date: Mon, 15 Aug 2022 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 12:55:26.811700
- Title: Unsupervised Video Domain Adaptation: A Disentanglement Perspective
- Title(参考訳): Unsupervised Video Domain Adaptation: A disentanglement Perspective
- Authors: Pengfei Wei, Lingdong Kong, Xinghua Qu, Xiang Yin, Zhiqiang Xu, Jing
Jiang, Zejun Ma
- Abstract要約: 適応プロセス中に、ドメイン関連情報をデータから切り離す。
Transfer Sequential VAEフレームワークは、そのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
- 参考スコア(独自算出の注目度): 29.89993924090171
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unsupervised video domain adaptation is a practical yet challenging task. In
this work, for the first time, we tackle it from a disentanglement view. Our
key idea is to disentangle the domain-related information from the data during
the adaptation process. Specifically, we consider the generation of
cross-domain videos from two sets of latent factors, one encoding the static
domain-related information and another encoding the temporal and
semantic-related information. A Transfer Sequential VAE (TranSVAE) framework is
then developed to model such generation. To better serve for adaptation, we
further propose several objectives to constrain the latent factors in TranSVAE.
Extensive experiments on the UCF-HMDB, Jester, and Epic-Kitchens datasets
verify the effectiveness and superiority of TranSVAE compared with several
state-of-the-art methods. Code is publicly available at
https://github.com/ldkong1205/TranSVAE.
- Abstract(参考訳): 教師なしビデオドメイン適応は実用的だが難しい課題である。
この作業では、初めて、歪んだ視点からそれに取り組む。
私たちのキーとなるアイデアは、適応プロセス中にデータからドメイン関連情報を切り離すことです。
具体的には,静的なドメイン関連情報を符号化する手法と,時間的および意味的関連情報を符号化する手法について検討する。
その後、トランスファーシーケンスVAE(TranSVAE)フレームワークが開発され、そのような世代をモデル化する。
さらに,適応に役立てるために,TranSVAEの潜伏要因を抑えるために,いくつかの目的を提案する。
UCF-HMDB、Jester、Epic-Kitchensのデータセットに対する大規模な実験は、いくつかの最先端手法と比較してTranSVAEの有効性と優位性を検証する。
コードはhttps://github.com/ldkong1205/TranSVAEで公開されている。
関連論文リスト
- Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Contrast and Mix: Temporal Contrastive Video Domain Adaptation with
Background Mixing [55.73722120043086]
Contrast and Mix(CoMix)は、教師なしビデオドメイン適応のための識別的不変な特徴表現を学習することを目的とした、新しいコントラスト学習フレームワークである。
まず,2つの異なる速度でラベル付きビデオの符号化表現の類似性を最大化することにより,時間的コントラスト学習を用いてドメインギャップをブリッジする。
第2に,両ドメイン間で共有されるアクションセマンティクスを活用するために,アンカー毎の肯定的な追加を可能にするバックグラウンドミキシングを用いることにより,時間的コントラスト損失の新たな拡張を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:03:29Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。