論文の概要: Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video
Representation
- arxiv url: http://arxiv.org/abs/2112.08913v1
- Date: Thu, 16 Dec 2021 14:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:49:04.842519
- Title: Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video
Representation
- Title(参考訳): 自己教師付き映像表現のための時空間前文学習
- Authors: Yujia Zhang, Lai-Man Po, Xuyuan Xu, Mengyang Liu, Yexin Wang, Weifeng
Ou, Yuzhi Zhao, Wing-Yin Yu
- Abstract要約: 本稿では,新しいプレテキストタスク-時間的重複率(STOR)予測を提案する。
それは、人間が空間と時間におけるビデオの重複率を識別できるという観察に由来する。
我々は、時間的表現学習を強化するために、コントラスト学習を組み合わせた共同作業を採用する。
- 参考スコア(独自算出の注目度): 16.643709221279764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal representation learning is critical for video self-supervised
representation. Recent approaches mainly use contrastive learning and pretext
tasks. However, these approaches learn representation by discriminating sampled
instances via feature similarity in the latent space while ignoring the
intermediate state of the learned representations, which limits the overall
performance. In this work, taking into account the degree of similarity of
sampled instances as the intermediate state, we propose a novel pretext task -
spatio-temporal overlap rate (STOR) prediction. It stems from the observation
that humans are capable of discriminating the overlap rates of videos in space
and time. This task encourages the model to discriminate the STOR of two
generated samples to learn the representations. Moreover, we employ a joint
optimization combining pretext tasks with contrastive learning to further
enhance the spatio-temporal representation learning. We also study the mutual
influence of each component in the proposed scheme. Extensive experiments
demonstrate that our proposed STOR task can favor both contrastive learning and
pretext tasks. The joint optimization scheme can significantly improve the
spatio-temporal representation in video understanding. The code is available at
https://github.com/Katou2/CSTP.
- Abstract(参考訳): 時空間表現学習はビデオ自己教師あり表現に不可欠である。
最近のアプローチでは、主に対比学習と前文タスクを使用する。
しかし、これらの手法は、学習された表現の中間状態を無視しながら、潜在空間における特徴的類似性を通じてサンプルインスタンスを識別することで表現を学ぶ。
本研究では,サンプルインスタンスの類似度を中間状態として考慮し,新しいプレテキスト・タスク比時間重なり率(STOR)予測を提案する。
それは、人間が空間と時間におけるビデオの重複率を識別できるという観察に由来する。
このタスクはモデルが2つの生成されたサンプルのSTORを識別して表現を学ぶことを奨励する。
さらに,前文課題と対比学習を組み合わせた協調最適化を行い,時空間表現学習をさらに強化する。
また,提案手法における各成分の相互影響についても検討した。
我々の提案するSTORタスクは、コントラスト学習とプレテキストタスクの両方に有利であることを示す。
協調最適化手法は映像理解における時空間表現を著しく改善することができる。
コードはhttps://github.com/Katou2/CSTPで公開されている。
関連論文リスト
- A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Towards a Better Understanding of Representation Dynamics under
TD-learning [23.65188248947536]
TD-learningは、価値予測のための基礎強化学習(RL)アルゴリズムである。
エンドツーエンドのTD学習は、時間とともにどのように表現に影響を与えるのか?
まず、環境が可逆である場合、エンドツーエンドのTD学習が時間とともに値近似誤差を厳密に減少させることを示す。
論文 参考訳(メタデータ) (2023-05-29T13:34:40Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Multi-Task Self-Supervised Time-Series Representation Learning [3.31490164885582]
時系列表現学習は、時間的ダイナミクスとスパースラベルを持つデータから表現を抽出することができる。
自己教師型タスクの利点を組み合わせた時系列表現学習手法を提案する。
本稿では,時系列分類,予測,異常検出という3つのダウンストリームタスクの枠組みについて検討する。
論文 参考訳(メタデータ) (2023-03-02T07:44:06Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Time-Series Representation Learning via Temporal and Contextual
Contrasting [14.688033556422337]
時間・文脈コントラスト(TS-TCC)を用いた教師なし時系列表現学習フレームワークを提案する。
第一に、生の時系列データは、弱い、強い拡張を用いて、2つの異なる相関するビューに変換される。
第2に,厳密な横断的予測タスクを設計することにより,頑健な時間的表現を学習するための新しい時間的コントラストモジュールを提案する。
第三に、識別的表現をさらに学習するために、時間的コントラストモジュールからコンテキスト上に構築された文脈的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2021-06-26T23:56:31Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。