論文の概要: Self-Supervised Video Representation Learning via Latent Time Navigation
- arxiv url: http://arxiv.org/abs/2305.06437v1
- Date: Wed, 10 May 2023 20:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:47:02.861222
- Title: Self-Supervised Video Representation Learning via Latent Time Navigation
- Title(参考訳): 潜時ナビゲーションによる自己監督型映像表現学習
- Authors: Di Yang, Yaohui Wang, Quan Kong, Antitza Dantcheva, Lorenzo Garattoni,
Gianpiero Francesca, Francois Bremond
- Abstract要約: 自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
- 参考スコア(独自算出の注目度): 12.721647696921865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised video representation learning aimed at maximizing similarity
between different temporal segments of one video, in order to enforce feature
persistence over time. This leads to loss of pertinent information related to
temporal relationships, rendering actions such as `enter' and `leave' to be
indistinguishable. To mitigate this limitation, we propose Latent Time
Navigation (LTN), a time-parameterized contrastive learning strategy that is
streamlined to capture fine-grained motions. Specifically, we maximize the
representation similarity between different video segments from one video,
while maintaining their representations time-aware along a subspace of the
latent representation code including an orthogonal basis to represent temporal
changes. Our extensive experimental analysis suggests that learning video
representations by LTN consistently improves performance of action
classification in fine-grained and human-oriented tasks (e.g., on Toyota
Smarthome dataset). In addition, we demonstrate that our proposed model, when
pre-trained on Kinetics-400, generalizes well onto the unseen real world video
benchmark datasets UCF101 and HMDB51, achieving state-of-the-art performance in
action recognition.
- Abstract(参考訳): 自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的とした。
これにより、時間的関係に関連する関連する情報が失われ、'enter' や `leave' のようなアクションは区別がつかない。
この制限を緩和するために、細かな動きを捉えるために合理化される時間パラメータ化されたコントラスト学習戦略であるLTNを提案する。
具体的には, 時間的変化を表す直交基底を含む潜在表現コードの部分空間に沿って時間的認識を維持しながら, 映像の異なるセグメント間の表現類似性を最大化する。
LTNによるビデオ表現の学習は、細粒度および人為的タスク(トヨタスマートホームデータセットなど)における動作分類の性能を一貫して改善することを示す。
さらに,本稿では,Kinetics-400で事前トレーニングを行った場合,実世界のビデオベンチマークデータセットであるUCF101とHMDB51によく対応し,動作認識における最先端性能を実現する。
関連論文リスト
- TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - Video Representation Learning with Visual Tempo Consistency [105.20094164316836]
映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。
本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
論文 参考訳(メタデータ) (2020-06-28T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。