論文の概要: Temporal Contrastive Learning with Curriculum
- arxiv url: http://arxiv.org/abs/2209.00760v1
- Date: Fri, 2 Sep 2022 00:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:25:53.556620
- Title: Temporal Contrastive Learning with Curriculum
- Title(参考訳): カリキュラムによる時間的コントラスト学習
- Authors: Shuvendu Roy, Ali Etemad
- Abstract要約: ConCurは、カリキュラム学習を用いて動的サンプリング戦略を課すコントラスト型ビデオ表現学習法である。
提案手法は,UCF101とHMDB51という2つの一般的な行動認識データセットを用いて実験を行い,その有効性を実証した。
- 参考スコア(独自算出の注目度): 19.442685015494316
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present ConCur, a contrastive video representation learning method that
uses curriculum learning to impose a dynamic sampling strategy in contrastive
training. More specifically, ConCur starts the contrastive training with easy
positive samples (temporally close and semantically similar clips), and as the
training progresses, it increases the temporal span effectively sampling hard
positives (temporally away and semantically dissimilar). To learn better
context-aware representations, we also propose an auxiliary task of predicting
the temporal distance between a positive pair of clips. We conduct extensive
experiments on two popular action recognition datasets, UCF101 and HMDB51, on
which our proposed method achieves state-of-the-art performance on two
benchmark tasks of video action recognition and video retrieval. We explore the
impact of encoder backbones and pre-training strategies by using R(2+1)D and
C3D encoders and pre-training on Kinetics-400 and Kinetics-200 datasets.
Moreover, a detailed ablation study shows the effectiveness of each of the
components of our proposed method.
- Abstract(参考訳): 本稿では,コントラスト学習における動的サンプリング戦略を課すためにカリキュラム学習を用いたコントラスト映像表現学習手法であるconcurを提案する。
より具体的には、ConCurは簡単な正のサンプル(時間的に近づき、意味的に類似したクリップ)で対照的なトレーニングを開始し、トレーニングが進むにつれて、時間的スパンを効果的にサンプリングする(時間的に離れて、意味的に異なる)。
さらに, 文脈認識表現をよりよく学習するために, 正のクリップ間の時間距離を予測する補助タスクを提案する。
提案手法は,ビデオアクション認識とビデオ検索の2つのベンチマークタスクにおいて最先端のパフォーマンスを実現するため,2つの一般的なアクション認識データセットであるutf101とhmdb51について広範囲に実験を行った。
我々は,R(2+1)DおよびC3Dエンコーダを用いて,エンコーダのバックボーンと事前学習戦略の影響を調査し,Kinetics-400およびKinetics-200データセットの事前学習を行う。
さらに,提案手法の各成分の有効性について詳細なアブレーション研究を行った。
関連論文リスト
- Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Dynamic Sampling Networks for Efficient Action Recognition in Videos [43.51012099839094]
Em Dynamic Smpling Networks (DSN) と呼ばれるビデオにおける行動認識のための新しいフレームワークを提案する。
DSNは、サンプリングモジュールと分類モジュールから構成されており、その目的は、どのクリップをオンザフライで選択し、どのクリップを保持して、これらの選択されたクリップに基づいてアクション認識を行うかを訓練するサンプリングポリシーを学習することである。
UCF101, HMDB51, THUMOS14, ActivityNet v1.3の4つのアクション認識データセット上で, DSNフレームワークのさまざまな側面について検討した。
論文 参考訳(メタデータ) (2020-06-28T09:48:29Z) - Video Representation Learning with Visual Tempo Consistency [105.20094164316836]
映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。
本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
論文 参考訳(メタデータ) (2020-06-28T02:46:44Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。