論文の概要: Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned
Meta-Adaptation
- arxiv url: http://arxiv.org/abs/2109.15317v1
- Date: Thu, 30 Sep 2021 17:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:09:03.399143
- Title: Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned
Meta-Adaptation
- Title(参考訳): action-appearance aligned meta-adaptation による教師なし少数ショット動作認識
- Authors: Jay Patravali, Gaurav Mittal, Ye Yu, Fuxin Li, Mei Chen
- Abstract要約: 本稿では,Few-shotアクション認識のための,最初の未ラベルメタ学習アルゴリズムとしてMetaUVFSを提案する。
我々は2ストリームの2Dおよび3D CNNアーキテクチャをコントラスト学習により訓練し、外観固有の空間的・行動的映像特徴をキャプチャする。
従来の数発のアクション認識方式とは異なり、MetaUVFSはベースクラスラベルも教師付きバックボーンも必要としない。
- 参考スコア(独自算出の注目度): 36.01287471118033
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present MetaUVFS as the first Unsupervised Meta-learning algorithm for
Video Few-Shot action recognition. MetaUVFS leverages over 550K unlabeled
videos to train a two-stream 2D and 3D CNN architecture via contrastive
learning to capture the appearance-specific spatial and action-specific
spatio-temporal video features respectively. MetaUVFS comprises a novel
Action-Appearance Aligned Meta-adaptation (A3M) module that learns to focus on
the action-oriented video features in relation to the appearance features via
explicit few-shot episodic meta-learning over unsupervised hard-mined episodes.
Our action-appearance alignment and explicit few-shot learner conditions the
unsupervised training to mimic the downstream few-shot task, enabling MetaUVFS
to significantly outperform all unsupervised methods on few-shot benchmarks.
Moreover, unlike previous few-shot action recognition methods that are
supervised, MetaUVFS needs neither base-class labels nor a supervised
pretrained backbone. Thus, we need to train MetaUVFS just once to perform
competitively or sometimes even outperform state-of-the-art supervised methods
on popular HMDB51, UCF101, and Kinetics100 few-shot datasets.
- Abstract(参考訳): metauvfsは,ビデオマイトショット動作認識のための最初の教師なしメタラーニングアルゴリズムである。
MetaUVFSは550K以上のラベル付きビデオを利用して、2ストリームの2Dと3DのCNNアーキテクチャを対照的な学習によって訓練し、それぞれ外見固有の空間的特徴とアクション固有の時空間的特徴をキャプチャする。
metauvfs は新たな action-appearance aligned meta-adaptation (a3m) モジュールで構成されており、教師なしのハードマインドエピソードにおける明示的な少数ショットのエピソディックメタラーニングを通じて、アクション指向のビデオ機能に焦点を当てることを学ぶ。
我々のアクション・アライメントと明示的な数ショット学習者は、下流の数ショットタスクを模倣するために教師なしの訓練を条件付け、MetaUVFSは教師なしのすべてのメソッドを数ショットのベンチマークで大幅に上回ります。
さらに、従来の数発のアクション認識方法とは異なり、MetaUVFSはベースクラスラベルも教師付き事前訓練されたバックボーンも必要としない。
したがって、私たちはMetaUVFSを一度トレーニングして、人気の高いHMDB51、UCF101、Kinetics100のショットデータセット上で、競争力のある、あるいは時には最先端の教師付き手法を上回ります。
関連論文リスト
- ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。
本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Self-Supervised Video Representation Learning with Meta-Contrastive
Network [10.768575680990415]
自己教師型アプローチの学習能力を高めるためのメタコントラストネットワーク(MCN)を提案する。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNは最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-08-19T01:21:13Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。