論文の概要: Can Temporal Information Help with Contrastive Self-Supervised Learning?
- arxiv url: http://arxiv.org/abs/2011.13046v1
- Date: Wed, 25 Nov 2020 22:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:12:45.572624
- Title: Can Temporal Information Help with Contrastive Self-Supervised Learning?
- Title(参考訳): 時間的情報は対照的な自己教師付き学習に役立つか?
- Authors: Yutong Bai, Haoqi Fan, Ishan Misra, Ganesh Venkatesh, Yongyi Lu, Yuyin
Zhou, Qihang Yu, Vikas Chandra, Alan Yuille
- Abstract要約: 本稿では、ビデオCSLを強化するための一般的なパラダイムとして、コントラスト型自己教師型学習TaCoを提案する。
我々の最良のモデルでは85.1%(UCF-101)と51.6%(HMDB-51)のトップ-1の精度が達成され、これは従来の最先端に比べて3%と2.4%の相対的な改善である。
- 参考スコア(独自算出の注目度): 39.66620177815284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging temporal information has been regarded as essential for developing
video understanding models. However, how to properly incorporate temporal
information into the recent successful instance discrimination based
contrastive self-supervised learning (CSL) framework remains unclear. As an
intuitive solution, we find that directly applying temporal augmentations does
not help, or even impair video CSL in general. This counter-intuitive
observation motivates us to re-design existing video CSL frameworks, for better
integration of temporal knowledge.
To this end, we present Temporal-aware Contrastive self-supervised
learningTaCo, as a general paradigm to enhance video CSL. Specifically, TaCo
selects a set of temporal transformations not only as strong data augmentation
but also to constitute extra self-supervision for video understanding. By
jointly contrasting instances with enriched temporal transformations and
learning these transformations as self-supervised signals, TaCo can
significantly enhance unsupervised video representation learning. For instance,
TaCo demonstrates consistent improvement in downstream classification tasks
over a list of backbones and CSL approaches. Our best model achieves 85.1%
(UCF-101) and 51.6% (HMDB-51) top-1 accuracy, which is a 3% and 2.4% relative
improvement over the previous state-of-the-art.
- Abstract(参考訳): 時間的情報を活用することは,映像理解モデルの開発に不可欠であると考えられる。
しかし、最近成功したインスタンス識別に基づくコントラスト型自己教師学習(CSL)フレームワークに時間的情報を適切に組み込む方法は不明である。
直感的な解法として、時間拡張を直接適用することは、一般的にはビデオCSLを損なうことさえない。
この反直感的な観察は、時間的知識のより良い統合のために、既存のビデオCSLフレームワークを再設計する動機となります。
そこで本研究では,ビデオcsl強化のための汎用パラダイムとして,時間対応型コントラスト型自己教師付き学習タコを提案する。
具体的には、TaCoは、強力なデータ拡張だけでなく、ビデオ理解のための追加の自己監督を構成するために、時間変換のセットを選択する。
豊富な時間変換を持つインスタンスを相互に対比し、これら変換を自己教師付き信号として学習することにより、TaCoは教師なしのビデオ表現学習を大幅に強化することができる。
例えば、TaCoは、バックボーンとCSLアプローチのリストよりも下流の分類タスクを一貫して改善している。
我々の最良のモデルは85.1% (ucf-101) と51.6% (hmdb-51) のtop-1精度を達成し、これは以前の状態と比べて3%と2.4%の改善である。
関連論文リスト
- Unsupervised Temporal Action Localization via Self-paced Incremental
Learning [57.55765505856969]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの漸進学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Augmentation-aware Self-supervised Learning with Conditioned Projector [6.720605329045581]
自己教師付き学習(SSL)は、ラベルのないデータから学習するための強力な技術である。
本稿では,プロジェクタネットワークを改良し,表現空間の特徴に対する感受性を高めることを提案する。
提案手法は条件拡張型自己教師学習(CASSLE)と呼ばれ,通常の共同埋め込み型SSL手法に直接適用可能である。
論文 参考訳(メタデータ) (2023-05-31T12:24:06Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Self-supervised Contrastive Representation Learning for Semi-supervised
Time-Series Classification [25.37700142906292]
時間・文脈コントラスト(TS-TCC)を用いた新しい時系列表現学習フレームワークを提案する。
具体的には、時系列固有の弱弱化と強弱化を提案し、その見解を用いて、堅牢な時間関係を学習する。
また、TS-TCCを半教師付き学習環境に拡張し、いくつかのラベル付きデータから恩恵を受けるクラスアウェアTS-TCC(CA-TCC)を提案する。
論文 参考訳(メタデータ) (2022-08-13T10:22:12Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。