論文の概要: CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2301.06018v1
- Date: Sun, 15 Jan 2023 05:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 17:50:30.979564
- Title: CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition
- Title(参考訳): CMAE-V:ビデオアクション認識のためのコントラストマスク付きオートエンコーダ
- Authors: Cheng-Ze Lu, Xiaojie Jin, Zhicheng Huang, Qibin Hou, Ming-Ming Cheng,
Jiashi Feng
- Abstract要約: 視覚行動認識のためのCMAEは、純粋なマスク付きオートエンコーダに基づいて、それよりも強力な特徴表現を生成することができる。
ハイブリッドアーキテクチャであるCMAE-Vは、Kinetics-400とSome-something V2データセットで82.2%と71.6%の精度を達成できる。
- 参考スコア(独自算出の注目度): 140.22700085735215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Masked Autoencoder (CMAE), as a new self-supervised framework,
has shown its potential of learning expressive feature representations in
visual image recognition. This work shows that CMAE also trivially generalizes
well on video action recognition without modifying the architecture and the
loss criterion. By directly replacing the original pixel shift with the
temporal shift, our CMAE for visual action recognition, CMAE-V for short, can
generate stronger feature representations than its counterpart based on pure
masked autoencoders. Notably, CMAE-V, with a hybrid architecture, can achieve
82.2% and 71.6% top-1 accuracy on the Kinetics-400 and Something-something V2
datasets, respectively. We hope this report could provide some informative
inspiration for future works.
- Abstract(参考訳): 新しい自己教師型フレームワークであるContrastive Masked Autoencoder (CMAE)は、視覚画像認識における表現的特徴表現の学習の可能性を示している。
この研究は、CMAEがアーキテクチャや損失基準を変更することなく、ビデオアクション認識を自明に一般化していることを示している。
元のピクセルシフトを時間シフトに置き換えることで、視覚行動認識のためのCMAE、略してCMAE-Vは、純粋なマスク付きオートエンコーダに基づいて、それよりも強力な特徴表現を生成することができる。
特にCMAE-Vはハイブリッドアーキテクチャで、Kinetics-400とSome-something V2データセットでそれぞれ82.2%と71.6%の精度を達成できる。
このレポートが今後の研究に何らかのインスピレーションを与えることを期待している。
関連論文リスト
- MV-CC: Mask Enhanced Video Model for Remote Sensing Change Caption [8.062368743143388]
融合モジュールを設計せずに新しいビデオモデルに基づくパラダイムを導入する。
具体的には、オフザシェルフビデオエンコーダを用いて、両時間画像の時間的特徴と空間的特徴を同時に抽出する。
提案手法は,他の最先端RSICC法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-10-31T14:02:40Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Contrastive Masked Autoencoders are Stronger Vision Learners [114.16568579208216]
Contrastive Masked Autoencoders (CMAE)は、より包括的で有能な視覚表現を学習するための、自己指導型事前学習手法である。
CMAEは、画像分類、セマンティックセグメンテーション、オブジェクト検出の高度に競争力のあるベンチマークにおいて、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-27T14:04:22Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。