論文の概要: Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning
- arxiv url: http://arxiv.org/abs/2011.11261v2
- Date: Tue, 31 Aug 2021 20:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:09:19.252928
- Title: Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning
- Title(参考訳): 自己教師付き映像表現学習のための階層的分離型時空間コントラスト
- Authors: Zehua Zhang and David Crandall
- Abstract要約: a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
- 参考スコア(独自算出の注目度): 6.523119805288132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel technique for self-supervised video representation
learning by: (a) decoupling the learning objective into two contrastive
subtasks respectively emphasizing spatial and temporal features, and (b)
performing it hierarchically to encourage multi-scale understanding. Motivated
by their effectiveness in supervised learning, we first introduce
spatial-temporal feature learning decoupling and hierarchical learning to the
context of unsupervised video learning. We show by experiments that
augmentations can be manipulated as regularization to guide the network to
learn desired semantics in contrastive learning, and we propose a way for the
model to separately capture spatial and temporal features at multiple scales.
We also introduce an approach to overcome the problem of divergent levels of
instance invariance at different hierarchies by modeling the invariance as loss
weights for objective re-weighting. Experiments on downstream action
recognition benchmarks on UCF101 and HMDB51 show that our proposed
Hierarchically Decoupled Spatial-Temporal Contrast (HDC) makes substantial
improvements over directly learning spatial-temporal features as a whole and
achieves competitive performance when compared with other state-of-the-art
unsupervised methods. Code will be made available.
- Abstract(参考訳): 自己教師型ビデオ表現学習のための新しい手法を提案する。
(a)空間的特徴と時間的特徴を強調する2つの対照的なサブタスクに学習目標を分離すること。
(b)マルチスケール理解を促すために階層的に実行する。
教師なし学習の有効性に動機づけられ,まず,教師なしビデオ学習の文脈に空間-時間的特徴学習と階層的学習を導入する。
実験により,拡張を正規化として操作することで,ネットワークが所望のセマンティクスを学習するためにコントラッシブラーニングを指導できることを示し,空間的特徴と時間的特徴を複数のスケールで分離する手法を提案する。
また,目的の再重み付けのための損失重み付けとして非分散をモデル化し,異なる階層におけるインスタンス不変性の分散レベルの問題を克服する手法を提案する。
UCF101とHMDB51の下流行動認識ベンチマーク実験から,提案した階層的分離時空間コントラスト(HDC)は,空間時間的特徴を直接学習するよりも大幅に改善され,他の最先端の教師なし手法と比較して競争性能が向上することが示された。
コードは利用可能になる。
関連論文リスト
- MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning [9.240917262195046]
C-LAIfOは、ビデオからの模倣学習のために設計された計算効率の良いアルゴリズムである。
我々は、視覚的相違のある専門家ビデオから模倣の問題を解析する。
我々のアルゴリズムはこの空間内で完全に模倣を行う。
論文 参考訳(メタデータ) (2024-06-18T20:56:18Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Hierarchically Self-Supervised Transformer for Human Skeleton
Representation Learning [45.13060970066485]
階層型トランスフォーマーベーススケルトンシーケンスエンコーダ(Hi-TRS)に組み込まれた自己教師型階層型事前学習方式を提案する。
教師付き評価プロトコルと半教師付き評価プロトコルの両方で,本手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-20T04:21:05Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Self-supervised learning using consistency regularization of
spatio-temporal data augmentation for action recognition [15.701647552427708]
整合正則化に基づく高次特徴写像に基づく代理監視信号を得るための新しい手法を提案する。
本手法は,動作認識のための最先端の自己教師型学習法と比較して,大幅に改善されている。
論文 参考訳(メタデータ) (2020-08-05T12:41:59Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。