論文の概要: MOFO: MOtion FOcused Self-Supervision for Video Understanding
- arxiv url: http://arxiv.org/abs/2308.12447v2
- Date: Wed, 1 Nov 2023 15:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:02:56.733536
- Title: MOFO: MOtion FOcused Self-Supervision for Video Understanding
- Title(参考訳): MOFO:ビデオ理解のためのセルフスーパービジョン
- Authors: Mona Ahmadian, Frank Guerin, and Andrew Gilbert
- Abstract要約: 自己教師付き学習技術は、ラベルのないビデオから視覚表現を学習する際、優れた結果を生んでいる。
動作認識のための教師あり学習技術における動作の重要性にもかかわらず、SSL法はビデオ内の動作情報を明示的に考慮しないことが多い。
動作認識のためのビデオの動作領域に表現学習を集中させる新しいSSL手法MOFOを提案する。
- 参考スコア(独自算出の注目度): 11.641926922266347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) techniques have recently produced outstanding
results in learning visual representations from unlabeled videos. Despite the
importance of motion in supervised learning techniques for action recognition,
SSL methods often do not explicitly consider motion information in videos. To
address this issue, we propose MOFO (MOtion FOcused), a novel SSL method for
focusing representation learning on the motion area of a video, for action
recognition. MOFO automatically detects motion areas in videos and uses these
to guide the self-supervision task. We use a masked autoencoder which randomly
masks out a high proportion of the input sequence; we force a specified
percentage of the inside of the motion area to be masked and the remainder from
outside. We further incorporate motion information into the finetuning step to
emphasise motion in the downstream task. We demonstrate that our motion-focused
innovations can significantly boost the performance of the currently leading
SSL method (VideoMAE) for action recognition. Our method improves the recent
self-supervised Vision Transformer (ViT), VideoMAE, by achieving +2.6%, +2.1%,
+1.3% accuracy on Epic-Kitchens verb, noun and action classification,
respectively, and +4.7% accuracy on Something-Something V2 action
classification. Our proposed approach significantly improves the performance of
the current SSL method for action recognition, indicating the importance of
explicitly encoding motion in SSL.
- Abstract(参考訳): 自己教師付き学習(SSL)技術は、最近、ラベルのないビデオから視覚表現を学習する際、優れた成果を上げている。
行動認識のための教師付き学習技術における動きの重要性にもかかわらず、ssl法はビデオ中の動き情報を明示的に考慮しないことが多い。
そこで本研究では,映像の動作領域に表現学習を集中させる新しいssl手法であるmofo(motion focus)を提案する。
MOFOはビデオ内の動き領域を自動的に検出し、これをセルフスーパービジョンタスクのガイドに利用する。
我々は、入力シーケンスの高割合をランダムにマスキングするマスク付きオートエンコーダを使用し、移動領域の内部の特定の割合をマスクし、残りの割合を外部から強制する。
さらに、下流タスクにおける動きを強調するために、動き情報を微調整ステップに組み込む。
動作中心のイノベーションによって,現在最先端のSSLメソッド(VideoMAE)の動作認識性能が大幅に向上することが実証された。
本手法は,近年の自己監督型視覚変換器(ViT),ビデオMAE,+2.6%,+2.1%,+1.3%,Epic-Kitchens動詞,名詞,行動分類,+4.7%,およびSome-Something V2行動分類の精度を向上する。
提案手法は動作認識のための現在のSSL法の性能を大幅に向上させ,SSLにおける動作を明示的に符号化することが重要であることを示す。
関連論文リスト
- MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders [46.38458873424361]
近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。
本研究では、モーションアウェアの変種であるMotionMAEを紹介する。
本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
論文 参考訳(メタデータ) (2022-10-09T03:22:15Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。