論文の概要: Unsupervised Domain Adaptation for Video Transformers in Action
Recognition
- arxiv url: http://arxiv.org/abs/2207.12842v1
- Date: Tue, 26 Jul 2022 12:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:54:42.892725
- Title: Unsupervised Domain Adaptation for Video Transformers in Action
Recognition
- Title(参考訳): アクション認識におけるビデオ変換器の教師なしドメイン適応
- Authors: Victor G. Turrisi da Costa, Giacomo Zara, Paolo Rota, Thiago
Oliveira-Santos, Nicu Sebe, Vittorio Murino, Elisa Ricci
- Abstract要約: ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
- 参考スコア(独自算出の注目度): 76.31442702219461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last few years, Unsupervised Domain Adaptation (UDA) techniques have
acquired remarkable importance and popularity in computer vision. However, when
compared to the extensive literature available for images, the field of videos
is still relatively unexplored. On the other hand, the performance of a model
in action recognition is heavily affected by domain shift. In this paper, we
propose a simple and novel UDA approach for video action recognition. Our
approach leverages recent advances on spatio-temporal transformers to build a
robust source model that better generalises to the target domain. Furthermore,
our architecture learns domain invariant features thanks to the introduction of
a novel alignment loss term derived from the Information Bottleneck principle.
We report results on two video action recognition benchmarks for UDA, showing
state-of-the-art performance on HMDB$\leftrightarrow$UCF, as well as on
Kinetics$\rightarrow$NEC-Drone, which is more challenging. This demonstrates
the effectiveness of our method in handling different levels of domain shift.
The source code is available at https://github.com/vturrisi/UDAVT.
- Abstract(参考訳): ここ数年、Unsupervised Domain Adaptation (UDA)技術はコンピュータビジョンにおいて顕著な重要性と人気を得た。
しかし、画像の広範な文献と比較すると、ビデオの分野はいまだに解明されていない。
一方,行動認識におけるモデルの性能は,ドメインシフトの影響を強く受けている。
本稿では,映像行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチは、時空間トランスフォーマーの最近の進歩を利用して、よりターゲットドメインに一般化するロバストなソースモデルを構築します。
さらに,Information Bottleneckの原理に基づく新たなアライメント損失項の導入により,ドメイン不変性を学習する。
我々はudaの2つのビデオアクション認識ベンチマークの結果を報告し、hmdb$\leftrightarrow$ucfとkinetics$\rightarrow$nec-droneのパフォーマンスを示した。
これは、異なるレベルのドメインシフトを扱う方法の有効性を示しています。
ソースコードはhttps://github.com/vturrisi/udavtで入手できる。
関連論文リスト
- Transferable-guided Attention Is All You Need for Video Domain Adaptation [42.642008092347986]
ビデオにおける教師なし適応(UDA)は、画像ベースのUDA技術に比べ、まだ十分に検討されていない課題である。
我々のキーとなる考え方は、トランスフォーマー層を特徴エンコーダとして使用し、空間的および時間的伝達可能性の関係をアテンション機構に組み込むことである。
Transferable-Guided Attention (TransferAttn)フレームワークが開発され、トランスフォーマーの能力を利用してドメイン間の知識を適応する。
論文 参考訳(メタデータ) (2024-07-01T15:29:27Z) - Vision Transformer-based Adversarial Domain Adaptation [5.611768906855499]
視覚変換器(ViT)は出現以来注目され、様々なコンピュータビジョンタスクで広く利用されている。
本稿では,このギャップを,対向領域適応における特徴抽出器としてViTを用いて埋める。
敵領域適応において, ViT がプラグイン・アンド・プレイコンポーネントとなることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-24T11:41:28Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。