論文の概要: MAR: Masked Autoencoders for Efficient Action Recognition
- arxiv url: http://arxiv.org/abs/2207.11660v1
- Date: Sun, 24 Jul 2022 04:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-07-26 14:35:50.348754
- Title: MAR: Masked Autoencoders for Efficient Action Recognition
- Title(参考訳): MAR:効率的な行動認識のためのマスク付きオートエンコーダ
- Authors: Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Xiang Wang, Yuehuan Wang,
Yiliang Lv, Changxin Gao, Nong Sang
- Abstract要約: 視覚変換器(ViT)は、限られた視覚コンテンツのみを与えられたコンテキスト間で補完することができる。
Marは、パッチのパーセンテージを破棄し、ビデオの一部でのみ操作することで、冗長性を低減します。
Marは相変わらず、既存のViTモデルを上回っている。
- 参考スコア(独自算出の注目度): 46.10824456139004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard approaches for video recognition usually operate on the full input
videos, which is inefficient due to the widely present spatio-temporal
redundancy in videos. Recent progress in masked video modelling, i.e.,
VideoMAE, has shown the ability of vanilla Vision Transformers (ViT) to
complement spatio-temporal contexts given only limited visual contents.
Inspired by this, we propose propose Masked Action Recognition (MAR), which
reduces the redundant computation by discarding a proportion of patches and
operating only on a part of the videos. MAR contains the following two
indispensable components: cell running masking and bridging classifier.
Specifically, to enable the ViT to perceive the details beyond the visible
patches easily, cell running masking is presented to preserve the
spatio-temporal correlations in videos, which ensures the patches at the same
spatial location can be observed in turn for easy reconstructions.
Additionally, we notice that, although the partially observed features can
reconstruct semantically explicit invisible patches, they fail to achieve
accurate classification. To address this, a bridging classifier is proposed to
bridge the semantic gap between the ViT encoded features for reconstruction and
the features specialized for classification. Our proposed MAR reduces the
computational cost of ViT by 53% and extensive experiments show that MAR
consistently outperforms existing ViT models with a notable margin. Especially,
we found a ViT-Large trained by MAR outperforms the ViT-Huge trained by a
standard training scheme by convincing margins on both Kinetics-400 and
Something-Something v2 datasets, while our computation overhead of ViT-Large is
only 14.5% of ViT-Huge.
- Abstract(参考訳): ビデオ認識の標準的なアプローチは、通常フルインプットビデオで動作するが、ビデオの時空間的冗長性が広く存在しているため、非効率である。
マスク付きビデオモデリングの最近の進歩、すなわちVideoMAEは、限られた視覚コンテンツしか持たない時空間を補完するバニラビジョントランスフォーマー(ViT)の能力を示している。
そこで本稿では,MAR (Masked Action Recognition) を提案する。これは,パッチの割合を削減し,ビデオの一部のみを操作することで冗長な計算を削減できる。
MARには、セルランニングマスキングとブリッジング分類器の2つの必須成分が含まれている。
具体的には、ViTが目に見えるパッチ以上の詳細を容易に認識できるようにするため、ビデオ内の時空間相関を保存するためにセルランキングマスクが提示され、同じ空間位置のパッチを交互に観察することができる。
さらに,部分的に観察された特徴は意味的に明らかでないパッチを再構築することができるが,正確な分類は得られない。
これを解決するために,ViTエンコードされた特徴と分類に特化した特徴とのセマンティックギャップを橋渡しするブリッジング分類器を提案する。
提案するmarはvitの計算コストを53%削減し,広範な実験により,既存のvitモデルよりも高いマージンを示した。
特に、MARでトレーニングしたViT-Largeは、Kineetics-400とSomething v2データセットのマージンを検証することで、標準的なトレーニングスキームでトレーニングしたViT-Hugeよりも優れており、VT-Hugeの計算オーバーヘッドはわずか14.5%である。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。