論文の概要: PreViTS: Contrastive Pretraining with Video Tracking Supervision
- arxiv url: http://arxiv.org/abs/2112.00804v1
- Date: Wed, 1 Dec 2021 19:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:37:09.091008
- Title: PreViTS: Contrastive Pretraining with Video Tracking Supervision
- Title(参考訳): previts:ビデオトラッキングによるコントラストプレトレーニング
- Authors: Brian Chen, Ramprasaath R. Selvaraju, Shih-Fu Chang, Juan Carlos
Niebles, and Nikhil Naik
- Abstract要約: PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
- 参考スコア(独自算出の注目度): 53.73237606312024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos are a rich source for self-supervised learning (SSL) of visual
representations due to the presence of natural temporal transformations of
objects. However, current methods typically randomly sample video clips for
learning, which results in a poor supervisory signal. In this work, we propose
PreViTS, an SSL framework that utilizes an unsupervised tracking signal for
selecting clips containing the same object, which helps better utilize temporal
transformations of objects. PreViTS further uses the tracking signal to
spatially constrain the frame regions to learn from and trains the model to
locate meaningful objects by providing supervision on Grad-CAM attention maps.
To evaluate our approach, we train a momentum contrastive (MoCo) encoder on
VGG-Sound and Kinetics-400 datasets with PreViTS. Training with PreViTS
outperforms representations learnt by MoCo alone on both image recognition and
video classification downstream tasks, obtaining state-of-the-art performance
on action classification. PreViTS helps learn feature representations that are
more robust to changes in background and context, as seen by experiments on
image and video datasets with background changes. Learning from large-scale
uncurated videos with PreViTS could lead to more accurate and robust visual
feature representations.
- Abstract(参考訳): ビデオは、オブジェクトの自然な時間変換の存在による視覚表現の自己教師型学習(SSL)のためのリッチな情報源である。
しかし、現在の方法は通常ランダムにビデオクリップをサンプリングして学習し、結果として監視信号が不十分になる。
本研究では、同じオブジェクトを含むクリップを選択するために教師なし追跡信号を利用するSSLフレームワークであるPreViTSを提案する。
PreViTSはさらに、追跡信号を使用してフレーム領域を空間的に制約して学習し、Grad-CAMアテンションマップの監視を提供することで、意味のあるオブジェクトを見つけるようモデルを訓練する。
提案手法を評価するために,VGG-Sound と Kinetics-400 のデータセットを PreViTS でトレーニングする。
PreViTSによるトレーニングは、画像認識と映像分類の両方の下流タスクでMoCoが学習した表現よりも優れており、アクション分類における最先端のパフォーマンスが得られる。
PreViTSは、背景変更を伴う画像やビデオデータセットの実験で見られるように、バックグラウンドやコンテキストの変更に対して堅牢な機能表現の学習を支援する。
PreViTSを使った大規模な未処理ビデオからの学習は、より正確で堅牢な視覚的特徴表現につながる可能性がある。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos [23.64091569954785]
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
論文 参考訳(メタデータ) (2022-06-15T18:57:07Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。