論文の概要: M$^3$Video: Masked Motion Modeling for Self-Supervised Video
Representation Learning
- arxiv url: http://arxiv.org/abs/2210.06096v1
- Date: Wed, 12 Oct 2022 11:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:57:18.813903
- Title: M$^3$Video: Masked Motion Modeling for Self-Supervised Video
Representation Learning
- Title(参考訳): M$^3$Video: 自己監督型ビデオ表現学習のためのマスクッドモーションモデリング
- Authors: Xinyu Sun, Peihao Chen, Liangwei Chen, Thomas H. Li, Mingkui Tan and
Chuang Gan
- Abstract要約: 本研究では,ラベルなしビデオから映像特徴を学習する自己教師付きビデオ表現学習について研究する。
本稿では,Musked Motion Modeling(M$3$Video)と呼ばれる自己教師型学習タスクを提案する。
- 参考スコア(独自算出の注目度): 89.2702283837987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study self-supervised video representation learning that seeks to learn
video features from unlabeled videos, which is widely used for video analysis
as labeling videos is labor-intensive. Current methods often mask some video
regions and then train a model to reconstruct spatial information in these
regions (e.g., original pixels). However, the model is easy to reconstruct this
information by considering content in a single frame. As a result, it may
neglect to learn the interactions between frames, which are critical for video
analysis. In this paper, we present a new self-supervised learning task, called
Masked Motion Modeling (M$^3$Video), for learning representation by enforcing
the model to predict the motion of moving objects in the masked regions. To
generate motion targets for this task, we track the objects using optical flow.
The motion targets consist of position transitions and shape changes of the
tracked objects, thus the model has to consider multiple frames
comprehensively. Besides, to help the model capture fine-grained motion
details, we enforce the model to predict trajectory motion targets in high
temporal resolution based on a video in low temporal resolution. After
pre-training using our M$^3$Video task, the model is able to anticipate
fine-grained motion details even taking a sparsely sampled video as input. We
conduct extensive experiments on four benchmark datasets. Remarkably, when
doing pre-training with 400 epochs, we improve the accuracy from 67.6\% to
69.2\% and from 78.8\% to 79.7\% on Something-Something V2 and Kinetics-400
datasets, respectively.
- Abstract(参考訳): 本研究では,ラベル付ビデオからビデオ特徴を学習することを目的とした自己教師付ビデオ表現学習について検討する。
現在の手法では、ビデオ領域を覆ってモデルを訓練して、これらの領域の空間情報(例えば元のピクセル)を再構築することが多い。
しかし、このモデルは単一のフレーム内でのコンテンツを考慮した情報再構成が容易である。
その結果,映像解析において重要なフレーム間の相互作用を学習することは無視される可能性がある。
本稿では,マスキング領域における移動物体の運動予測をモデルに強制することにより表現を学習するための,マスキングモーションモデリング(m$^3$video)と呼ばれる新しい自己教師あり学習タスクを提案する。
このタスクで運動目標を生成するために、光学フローを用いて物体を追跡する。
運動対象は、追跡対象の位置遷移と形状変化から成り、複数のフレームを包括的に考慮する必要がある。
さらに,このモデルが細かな動きの詳細を捉えるのを助けるために,低時間分解能のビデオに基づいて,高時間分解能の軌道運動目標を予測することを強制する。
M$^3$Videoタスクを使用して事前トレーニングを行った後、このモデルでは、スムーズなサンプル映像を入力として取り込んでも、細かな動きの詳細を予測できる。
4つのベンチマークデータセットに対して広範な実験を行う。
注目すべきは、400エポックで事前トレーニングを行う場合には、67.6\%から69.2\%に、Somes-Something V2とKineetics-400データセットでそれぞれ78.8\%から79.7\%に精度を向上する。
関連論文リスト
- Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders [46.38458873424361]
近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。
本研究では、モーションアウェアの変種であるMotionMAEを紹介する。
本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
論文 参考訳(メタデータ) (2022-10-09T03:22:15Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。