論文の概要: MoDist: Motion Distillation for Self-supervised Video Representation
Learning
- arxiv url: http://arxiv.org/abs/2106.09703v1
- Date: Thu, 17 Jun 2021 17:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:48:05.553283
- Title: MoDist: Motion Distillation for Self-supervised Video Representation
Learning
- Title(参考訳): MoDist: 自己教師型ビデオ表現学習のためのモーション蒸留
- Authors: Fanyi Xiao and Joseph Tighe and Davide Modolo
- Abstract要約: MoDistは、モーション情報を自己教師付きビデオ表現に蒸留する新しい方法である。
我々は,MoDistがフォアグラウンドの動作領域をより重視し,下流のタスクをより一般化することを示す。
- 参考スコア(独自算出の注目度): 27.05772951598066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MoDist as a novel method to explicitly distill motion information
into self-supervised video representations. Compared to previous video
representation learning methods that mostly focus on learning motion cues
implicitly from RGB inputs, we show that the representation learned with our
MoDist method focus more on foreground motion regions and thus generalizes
better to downstream tasks. To achieve this, MoDist enriches standard
contrastive learning objectives for RGB video clips with a cross-modal learning
objective between a Motion pathway and a Visual pathway. We evaluate MoDist on
several datasets for both action recognition (UCF101/HMDB51/SSv2) as well as
action detection (AVA), and demonstrate state-of-the-art self-supervised
performance on all datasets. Furthermore, we show that MoDist representation
can be as effective as (in some cases even better than) representations learned
with full supervision. Given its simplicity, we hope MoDist could serve as a
strong baseline for future research in self-supervised video representation
learning.
- Abstract(参考訳): 本稿では,モーディストを,自己教師付き映像表現に動的に運動情報を蒸留する新しい手法として提示する。
RGB入力から暗黙的に動きの手がかりを学習する従来のビデオ表現学習法と比較して,MoDist法で学習した表現は前景の動作領域に重点を置いており,より下流の作業に適応していることを示す。
これを実現するため、modistはrgbビデオクリップの標準的なコントラスト学習目標を運動経路と視覚経路とのクロスモーダル学習目標で強化する。
我々は,行動認識(UCF101/HMDB51/SSv2)と行動検出(AVA)の両方のデータセット上でMoDistを評価し,すべてのデータセットに対して最先端の自己管理性能を示す。
さらに,MoDist表現は,全監督下で学習した表現と同等(場合によってはそれ以上)に効果的であることを示す。
その単純さを考えると、modistが将来の自己教師付きビデオ表現学習研究のベースラインとなることを願っている。
関連論文リスト
- HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Video Action Recognition with Attentive Semantic Units [23.384091957466588]
アクションラベルの後ろに隠れているセマンティックユニット()を利用して、より正確なアクション認識を行います。
視覚言語モデル(VLM)の視覚枝にマルチリージョンモジュール(MRA)を導入する。
完全教師付き学習では,Kinetics-400では87.8%の精度でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-03-17T03:44:15Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - ViA: View-invariant Skeleton Action Representation Learning via Motion
Retargeting [10.811088895926776]
ViAは、自己教師付き骨格行動表現学習のための新しいビュー不変オートエンコーダである。
本研究では,実世界のデータに基づく自己教師付き事前学習による骨格に基づく行動認識のための移動学習に焦点を当てた研究を行う。
以上の結果から,ViAから得られた骨格表現は,最先端の動作分類精度を向上させるのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-08-31T18:49:38Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Exploring Relations in Untrimmed Videos for Self-Supervised Learning [17.670226952829506]
既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2020-08-06T15:29:25Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。