論文の概要: MoQuad: Motion-focused Quadruple Construction for Video Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2212.10870v1
- Date: Wed, 21 Dec 2022 09:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:03:11.174945
- Title: MoQuad: Motion-focused Quadruple Construction for Video Contrastive
Learning
- Title(参考訳): MoQuad:ビデオコントラスト学習のための4重構造
- Authors: Yuan Liu, Jiacheng Chen, Hao Wu
- Abstract要約: 本稿では,ビデオコントラスト学習における動作特徴の学習を促進するための,シンプルで効果的なサンプル構築戦略を提案する。
提案手法はMoQuad (Mo- Focus Quadruple Construction) と呼ばれ, 正試料と負試料の両方の外観と動きを巧みに妨害することにより, インスタンス識別を増強する。
単にMoQuadをSimCLRに適用することで、ダウンストリームタスクにおいて、最先端のアートよりも優れたパフォーマンスを達成できることが、広範な実験によって示されている。
- 参考スコア(独自算出の注目度): 10.41936704731324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning effective motion features is an essential pursuit of video
representation learning. This paper presents a simple yet effective sample
construction strategy to boost the learning of motion features in video
contrastive learning. The proposed method, dubbed Motion-focused Quadruple
Construction (MoQuad), augments the instance discrimination by meticulously
disturbing the appearance and motion of both the positive and negative samples
to create a quadruple for each video instance, such that the model is
encouraged to exploit motion information. Unlike recent approaches that create
extra auxiliary tasks for learning motion features or apply explicit temporal
modelling, our method keeps the simple and clean contrastive learning paradigm
(i.e.,SimCLR) without multi-task learning or extra modelling. In addition, we
design two extra training strategies by analyzing initial MoQuad experiments.
By simply applying MoQuad to SimCLR, extensive experiments show that we achieve
superior performance on downstream tasks compared to the state of the arts.
Notably, on the UCF-101 action recognition task, we achieve 93.7% accuracy
after pre-training the model on Kinetics-400 for only 200 epochs, surpassing
various previous methods
- Abstract(参考訳): 効果的な動作特徴の学習は、ビデオ表現学習の必須の追求である。
本稿では,ビデオコントラスト学習における動作特徴の学習を促進するための,シンプルで効果的なサンプル構築戦略を提案する。
提案手法はMoQuad (Mo- Focus Quadruple Construction) と呼ばれ, 正と負の両方のサンプルの出現と動きを巧みに妨害することにより, インスタンス識別を強化し, モデルが動き情報を利用するように, ビデオインスタンス毎に四重極を生成する。
動作特徴の学習や明示的な時間モデリングのための補助タスクを作成する最近のアプローチとは異なり、本手法はマルチタスク学習や余分なモデリングを必要とせず、シンプルでクリーンなコントラスト学習パラダイム(すなわちsimclr)を維持している。
さらに,初期MoQuad実験を解析し,2つの追加トレーニング戦略を設計する。
単にMoQuadをSimCLRに適用することで、ダウンストリームタスクにおいて、最先端のアートよりも優れたパフォーマンスが得られることを示す。
特に、UCF-101行動認識タスクでは、Kinetics-400のモデルを200エポックで事前訓練した後、93.7%の精度を達成する。
関連論文リスト
- ProMotion: Prototypes As Motion Learners [46.08051377180652]
本稿では,基本動作タスクをモデル化するための統一プロトタイプフレームワークであるProMotionを紹介する。
ProMotionは、現在のタスク固有のパラダイムとは別の、魅力的な属性を提供する。
我々は,特徴記述器と原型学習器を併用して,動作の複雑さを解読する2つのメカニズムを生かした。
論文 参考訳(メタデータ) (2024-06-07T15:10:33Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning [14.292812802621707]
対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
論文 参考訳(メタデータ) (2023-08-09T09:33:45Z) - Temporal Contrastive Learning with Curriculum [19.442685015494316]
ConCurは、カリキュラム学習を用いて動的サンプリング戦略を課すコントラスト型ビデオ表現学習法である。
提案手法は,UCF101とHMDB51という2つの一般的な行動認識データセットを用いて実験を行い,その有効性を実証した。
論文 参考訳(メタデータ) (2022-09-02T00:12:05Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。