論文の概要: Self-supervised Temporal Discriminative Learning for Video
Representation Learning
- arxiv url: http://arxiv.org/abs/2008.02129v1
- Date: Wed, 5 Aug 2020 13:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:31:54.187679
- Title: Self-supervised Temporal Discriminative Learning for Video
Representation Learning
- Title(参考訳): 映像表現学習のための自己指導型時間識別学習
- Authors: Jinpeng Wang, Yiqi Lin, Andy J. Ma, Pong C. Yuen
- Abstract要約: 注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
- 参考スコア(独自算出の注目度): 39.43942923911425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal cues in videos provide important information for recognizing actions
accurately. However, temporal-discriminative features can hardly be extracted
without using an annotated large-scale video action dataset for training. This
paper proposes a novel Video-based Temporal-Discriminative Learning (VTDL)
framework in self-supervised manner. Without labelled data for network
pretraining, temporal triplet is generated for each anchor video by using
segment of the same or different time interval so as to enhance the capacity
for temporal feature representation. Measuring temporal information by time
derivative, Temporal Consistent Augmentation (TCA) is designed to ensure that
the time derivative (in any order) of the augmented positive is invariant
except for a scaling constant. Finally, temporal-discriminative features are
learnt by minimizing the distance between each anchor and its augmented
positive, while the distance between each anchor and its augmented negative as
well as other videos saved in the memory bank is maximized to enrich the
representation diversity. In the downstream action recognition task, the
proposed method significantly outperforms existing related works. Surprisingly,
the proposed self-supervised approach is better than fully-supervised methods
on UCF101 and HMDB51 when a small-scale video dataset (with only thousands of
videos) is used for pre-training. The code has been made publicly available on
https://github.com/FingerRec/Self-Supervised-Temporal-Discriminative-Representation-Learning-for-Vid eo-Action-Recognition.
- Abstract(参考訳): ビデオの時間的手がかりは、アクションを正確に認識するための重要な情報を提供する。
しかし,大規模なビデオアクションデータセットを付加することなく,時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習(VTDL)フレームワークを自己指導型で提案する。
ネットワーク事前トレーニングのためのラベル付きデータがない場合、同一または異なる時間間隔のセグメントを用いて各アンカービデオに対して時間的三重項を生成し、時間的特徴表現の能力を高める。
TCA(Temporal Consistent Augmentation)は、時間微分による時間情報を測定することで、拡張正の時間微分(任意の順序で)がスケーリング定数を除いて不変であることを保証するように設計されている。
最後に、各アンカーとその増強正の間隔を最小化して時間差分特徴を学習し、一方、メモリバンクに保存された他のビデオと、各アンカーと増強負の間隔を最大化し、表現多様性を増強する。
下流行動認識タスクでは,提案手法が既存の関連作業を大幅に上回っている。
驚くべきことに、提案手法は、小規模ビデオデータセット(数千本のビデオのみ)を事前トレーニングに使用する場合、UCF101とHMDB51の完全教師方式よりも優れている。
コードはhttps://github.com/FingerRec/Self-Supervised-Temporal-Discriminative-Representation-for-Video-Action -Recognitionで公開されている。
関連論文リスト
- Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。