論文の概要: It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training
- arxiv url: http://arxiv.org/abs/2210.05234v1
- Date: Tue, 11 Oct 2022 08:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:11:59.120421
- Title: It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training
- Title(参考訳): 自己教師型ビデオトランスの事前学習のためのマスク付き外観運動モデリング
- Authors: Yuxin Song, Min Yang, Wenhao Wu, Dongliang He, Fu Li and Jingdong Wang
- Abstract要約: 自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
- 参考スコア(独自算出の注目度): 76.69480467101143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised video transformer pre-training has recently benefited from
the mask-and-predict pipeline. They have demonstrated outstanding effectiveness
on downstream video tasks and superior data efficiency on small datasets.
However, temporal relation is not fully exploited by these methods. In this
work, we explicitly investigate motion cues in videos as extra prediction
target and propose our Masked Appearance-Motion Modeling (MAM2) framework.
Specifically, we design an encoder-regressor-decoder pipeline for this task.
The regressor separates feature encoding and pretext tasks completion, such
that the feature extraction process is completed adequately by the encoder. In
order to guide the encoder to fully excavate spatial-temporal features, two
separate decoders are used for two pretext tasks of disentangled appearance and
motion prediction. We explore various motion prediction targets and figure out
RGB-difference is simple yet effective. As for appearance prediction, VQGAN
codes are leveraged as prediction target. With our pre-training pipeline,
convergence can be remarkably speed up, e.g., we only require half of epochs
than state-of-the-art VideoMAE (400 v.s. 800) to achieve the competitive
performance. Extensive experimental results prove that our method learns
generalized video representations. Notably, our MAM2 with ViT-B achieves 82.3%
on Kinects-400, 71.3% on Something-Something V2, 91.5% on UCF101, and 62.5% on
HMDB51.
- Abstract(参考訳): 自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスクと予測パイプラインの恩恵を受けている。
彼らはダウンストリームビデオタスクにおいて優れた効果を示し、小さなデータセット上で優れたデータ効率を示している。
しかし、時間的関係はこれらの手法によって完全には利用されない。
本研究では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,Masked Outearance-Motion Modeling (MAM2) フレームワークを提案する。
具体的には、このタスクのためにエンコーダ-レグレッサー-デコーダパイプラインを設計する。
レグレッサは、特徴抽出処理がエンコーダによって適切に完了するように、特徴エンコーディングとプリテキストタスクの完了を分離する。
エンコーダを空間的-時間的特徴の完全な抽出に導くために、2つの異なるデコーダを使用して、不連続な外観と動き予測の2つの前文タスクを行う。
様々な運動予測目標を探索し,rgb差分は単純かつ効果的であることを示す。
外観予測については、VQGAN符号を予測対象として利用する。
私たちの事前トレーニングパイプラインでは、コンバージェンスを著しくスピードアップすることができます。例えば、競争パフォーマンスを達成するには、最先端のVideoMAE(400対800)よりもエポックの半分しか必要ありません。
広範に実験した結果,本手法は一般化された映像表現を学習できることが証明された。
特に、我々のMAM2 with ViT-BはKinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成している。
関連論文リスト
- SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Self-supervised Video Representation Learning with Cross-Stream
Prototypical Contrasting [2.2530496464901106]
ビデオ・クロスストリーム・プロトタイプ・コントラスティング」はRGBと光フロービューの両方から一貫したプロトタイプの割り当てを予測する新しい手法である。
最寄りの映像検索と行動認識における最先端の検索結果を得る。
論文 参考訳(メタデータ) (2021-06-18T13:57:51Z) - Real-time Face Mask Detection in Video Data [0.5371337604556311]
本稿では,リアルタイムビデオストリームから正解と誤用を識別可能な,堅牢なディープラーニングパイプラインを提案する。
2つのアプローチを考案し,その性能と実行時間効率を評価した。
論文 参考訳(メタデータ) (2021-05-05T01:03:34Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。