論文の概要: PreViTS: Contrastive Pretraining with Video Tracking Supervision
- arxiv url: http://arxiv.org/abs/2112.00804v1
- Date: Wed, 1 Dec 2021 19:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:37:09.091008
- Title: PreViTS: Contrastive Pretraining with Video Tracking Supervision
- Title(参考訳): previts:ビデオトラッキングによるコントラストプレトレーニング
- Authors: Brian Chen, Ramprasaath R. Selvaraju, Shih-Fu Chang, Juan Carlos
Niebles, and Nikhil Naik
- Abstract要約: PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
- 参考スコア(独自算出の注目度): 53.73237606312024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos are a rich source for self-supervised learning (SSL) of visual
representations due to the presence of natural temporal transformations of
objects. However, current methods typically randomly sample video clips for
learning, which results in a poor supervisory signal. In this work, we propose
PreViTS, an SSL framework that utilizes an unsupervised tracking signal for
selecting clips containing the same object, which helps better utilize temporal
transformations of objects. PreViTS further uses the tracking signal to
spatially constrain the frame regions to learn from and trains the model to
locate meaningful objects by providing supervision on Grad-CAM attention maps.
To evaluate our approach, we train a momentum contrastive (MoCo) encoder on
VGG-Sound and Kinetics-400 datasets with PreViTS. Training with PreViTS
outperforms representations learnt by MoCo alone on both image recognition and
video classification downstream tasks, obtaining state-of-the-art performance
on action classification. PreViTS helps learn feature representations that are
more robust to changes in background and context, as seen by experiments on
image and video datasets with background changes. Learning from large-scale
uncurated videos with PreViTS could lead to more accurate and robust visual
feature representations.
- Abstract(参考訳): ビデオは、オブジェクトの自然な時間変換の存在による視覚表現の自己教師型学習(SSL)のためのリッチな情報源である。
しかし、現在の方法は通常ランダムにビデオクリップをサンプリングして学習し、結果として監視信号が不十分になる。
本研究では、同じオブジェクトを含むクリップを選択するために教師なし追跡信号を利用するSSLフレームワークであるPreViTSを提案する。
PreViTSはさらに、追跡信号を使用してフレーム領域を空間的に制約して学習し、Grad-CAMアテンションマップの監視を提供することで、意味のあるオブジェクトを見つけるようモデルを訓練する。
提案手法を評価するために,VGG-Sound と Kinetics-400 のデータセットを PreViTS でトレーニングする。
PreViTSによるトレーニングは、画像認識と映像分類の両方の下流タスクでMoCoが学習した表現よりも優れており、アクション分類における最先端のパフォーマンスが得られる。
PreViTSは、背景変更を伴う画像やビデオデータセットの実験で見られるように、バックグラウンドやコンテキストの変更に対して堅牢な機能表現の学習を支援する。
PreViTSを使った大規模な未処理ビデオからの学習は、より正確で堅牢な視覚的特徴表現につながる可能性がある。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos [23.64091569954785]
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
論文 参考訳(メタデータ) (2022-06-15T18:57:07Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。