論文の概要: TCLR: Temporal Contrastive Learning for Video Representation
- arxiv url: http://arxiv.org/abs/2101.07974v2
- Date: Thu, 4 Feb 2021 13:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:25:14.745265
- Title: TCLR: Temporal Contrastive Learning for Video Representation
- Title(参考訳): TCLR:ビデオ表現のための時間的コントラスト学習
- Authors: Ishan Dave, Rohit Gupta, Mamshad Nayeem Rizve and Mubarak Shah
- Abstract要約: 2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
- 参考スコア(独自算出の注目度): 49.6637562402604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has nearly closed the gap between supervised and
self-supervised learning of image representations. Existing extensions of
contrastive learning to the domain of video data however do not explicitly
attempt to represent the internal distinctiveness across the temporal dimension
of video clips. We develop a new temporal contrastive learning framework
consisting of two novel losses to improve upon existing contrastive
self-supervised video representation learning methods. The first loss adds the
task of discriminating between non-overlapping clips from the same video,
whereas the second loss aims to discriminate between timesteps of the feature
map of an input clip in order to increase the temporal diversity of the
features. Temporal contrastive learning achieves significant improvement over
the state-of-the-art results in downstream video understanding tasks such as
action recognition, limited-label action classification, and nearest-neighbor
video retrieval on video datasets across multiple 3D CNN architectures. With
the commonly used 3D-ResNet-18 architecture, we achieve 82.4% (+5.1% increase
over the previous best) top-1 accuracy on UCF101 and 52.9% (+5.4% increase) on
HMDB51 action classification, and 56.2% (+11.7% increase) Top-1 Recall on
UCF101 nearest neighbor video retrieval.
- Abstract(参考訳): コントラスト学習は、イメージ表現の教師付き学習と自己監督型学習のギャップをほとんど埋めてきた。
しかし、ビデオデータの領域に対するコントラスト学習の既存の拡張は、ビデオクリップの時間的次元を越えて内部的特徴を明示的に表現しようとはしていない。
2つの新たな損失からなる時間的コントラスト学習フレームワークを開発し、既存のコントラスト的自己監督型ビデオ表現学習法を改善する。
第1の損失は、同じビデオから重複しないクリップを区別するタスクを追加し、第2の損失は、特徴の時間的多様性を高めるために、入力クリップの特徴マップの時間ステップを判別することを目的としている。
時間的コントラスト学習は、アクション認識、限定ラベルアクション分類、複数の3次元CNNアーキテクチャ上のビデオデータセットの最も近いビデオ検索などの下流ビデオ理解タスクにおいて、最先端の成果よりも大幅に向上する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)、隣接するビデオ検索で56.2%(+11.7%)のTop-1リコールを達成した。
関連論文リスト
- Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。