論文の概要: Temporal Contrastive Learning with Curriculum
- arxiv url: http://arxiv.org/abs/2209.00760v1
- Date: Fri, 2 Sep 2022 00:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:25:53.556620
- Title: Temporal Contrastive Learning with Curriculum
- Title(参考訳): カリキュラムによる時間的コントラスト学習
- Authors: Shuvendu Roy, Ali Etemad
- Abstract要約: ConCurは、カリキュラム学習を用いて動的サンプリング戦略を課すコントラスト型ビデオ表現学習法である。
提案手法は,UCF101とHMDB51という2つの一般的な行動認識データセットを用いて実験を行い,その有効性を実証した。
- 参考スコア(独自算出の注目度): 19.442685015494316
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present ConCur, a contrastive video representation learning method that
uses curriculum learning to impose a dynamic sampling strategy in contrastive
training. More specifically, ConCur starts the contrastive training with easy
positive samples (temporally close and semantically similar clips), and as the
training progresses, it increases the temporal span effectively sampling hard
positives (temporally away and semantically dissimilar). To learn better
context-aware representations, we also propose an auxiliary task of predicting
the temporal distance between a positive pair of clips. We conduct extensive
experiments on two popular action recognition datasets, UCF101 and HMDB51, on
which our proposed method achieves state-of-the-art performance on two
benchmark tasks of video action recognition and video retrieval. We explore the
impact of encoder backbones and pre-training strategies by using R(2+1)D and
C3D encoders and pre-training on Kinetics-400 and Kinetics-200 datasets.
Moreover, a detailed ablation study shows the effectiveness of each of the
components of our proposed method.
- Abstract(参考訳): 本稿では,コントラスト学習における動的サンプリング戦略を課すためにカリキュラム学習を用いたコントラスト映像表現学習手法であるconcurを提案する。
より具体的には、ConCurは簡単な正のサンプル(時間的に近づき、意味的に類似したクリップ)で対照的なトレーニングを開始し、トレーニングが進むにつれて、時間的スパンを効果的にサンプリングする(時間的に離れて、意味的に異なる)。
さらに, 文脈認識表現をよりよく学習するために, 正のクリップ間の時間距離を予測する補助タスクを提案する。
提案手法は,ビデオアクション認識とビデオ検索の2つのベンチマークタスクにおいて最先端のパフォーマンスを実現するため,2つの一般的なアクション認識データセットであるutf101とhmdb51について広範囲に実験を行った。
我々は,R(2+1)DおよびC3Dエンコーダを用いて,エンコーダのバックボーンと事前学習戦略の影響を調査し,Kinetics-400およびKinetics-200データセットの事前学習を行う。
さらに,提案手法の各成分の有効性について詳細なアブレーション研究を行った。
関連論文リスト
- Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning [14.292812802621707]
対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
論文 参考訳(メタデータ) (2023-08-09T09:33:45Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。