論文の概要: Motion-Augmented Self-Training for Video Recognition at Smaller Scale
- arxiv url: http://arxiv.org/abs/2105.01646v1
- Date: Tue, 4 May 2021 17:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 12:55:17.791523
- Title: Motion-Augmented Self-Training for Video Recognition at Smaller Scale
- Title(参考訳): 小型映像認識のための運動強調自己訓練
- Authors: Kirill Gavrilyuk, Mihir Jain, Ilia Karmanov, Cees G. M. Snoek
- Abstract要約: 我々はMotionFitと呼ばれる最初のモーション強化自己訓練体制を提案します。
我々は,大規模な非ラベル映像コレクションに対して擬似ラベルを生成し,これらの擬似ラベルを出現モデルで予測し,知識の伝達を可能にした。
アクション認識やクリップ検索などのビデオ下流タスクに適した,強いモーション提示表現モデルを得る。
- 参考スコア(独自算出の注目度): 32.73585552425734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to self-train a 3D convolutional neural network on
an unlabeled video collection for deployment on small-scale video collections.
As smaller video datasets benefit more from motion than appearance, we strive
to train our network using optical flow, but avoid its computation during
inference. We propose the first motion-augmented self-training regime, we call
MotionFit. We start with supervised training of a motion model on a small, and
labeled, video collection. With the motion model we generate pseudo-labels for
a large unlabeled video collection, which enables us to transfer knowledge by
learning to predict these pseudo-labels with an appearance model. Moreover, we
introduce a multi-clip loss as a simple yet efficient way to improve the
quality of the pseudo-labeling, even without additional auxiliary tasks. We
also take into consideration the temporal granularity of videos during
self-training of the appearance model, which was missed in previous works. As a
result we obtain a strong motion-augmented representation model suited for
video downstream tasks like action recognition and clip retrieval. On
small-scale video datasets, MotionFit outperforms alternatives for knowledge
transfer by 5%-8%, video-only self-supervision by 1%-7% and semi-supervised
learning by 9%-18% using the same amount of class labels.
- Abstract(参考訳): 本論文の目的は,3次元畳み込みニューラルネットワークをラベルなしのビデオコレクションに自己学習し,小規模ビデオコレクションに展開することである。
より小さなビデオデータセットは外観よりも動きの恩恵を受けるため、私たちは光フローを使ってネットワークをトレーニングするが、推論時の計算は避ける。
我々は,モーションフィットと呼ばれる最初の自己学習方式を提案する。
まず、小さなラベル付きビデオコレクション上でのモーションモデルの教師付きトレーニングから始める。
モーションモデルでは,大規模な非ラベルビデオコレクションに対して擬似ラベルを生成し,学習により知識を伝達し,これらの擬似ラベルを出現モデルで予測する。
さらに,補助的なタスクを伴わずとも,擬似ラベルの質を向上させるための簡易かつ効率的な方法としてマルチクリップロスを導入する。
また,過去の作品では欠落していた外観モデルの自己学習中の映像の時間的粒度を考慮に入れた。
その結果、アクション認識やクリップ検索などのビデオ下流タスクに適した、強いモーション提示表現モデルが得られる。
小規模のビデオデータセットでは、motionfitは知識転送の選択肢を5%-8%、ビデオのみの自己スーパービジョンを1%-7%、半教師付き学習を9%-18%上回る。
関連論文リスト
- VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization [23.245275661852446]
動きに着目した映像表現を学習するための自己教師付き手法を提案する。
我々は、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶが、それ以外は異なる外観を持つ。
トレーニング済みビデオの25%しか使用していない場合,本手法では性能が維持される。
論文 参考訳(メタデータ) (2023-03-20T10:31:35Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。