論文の概要: Time-Equivariant Contrastive Video Representation Learning
- arxiv url: http://arxiv.org/abs/2112.03624v1
- Date: Tue, 7 Dec 2021 10:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:46:08.512155
- Title: Time-Equivariant Contrastive Video Representation Learning
- Title(参考訳): 時間不変コントラスト映像表現学習
- Authors: Simon Jenni and Hailin Jin
- Abstract要約: 本稿では,非競合ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。
実験により,映像検索と行動認識のベンチマークにおいて,時変表現が最先端の結果をもたらすことが示された。
- 参考スコア(独自算出の注目度): 47.50766781135863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel self-supervised contrastive learning method to learn
representations from unlabelled videos. Existing approaches ignore the
specifics of input distortions, e.g., by learning invariance to temporal
transformations. Instead, we argue that video representation should preserve
video dynamics and reflect temporal manipulations of the input. Therefore, we
exploit novel constraints to build representations that are equivariant to
temporal transformations and better capture video dynamics. In our method,
relative temporal transformations between augmented clips of a video are
encoded in a vector and contrasted with other transformation vectors. To
support temporal equivariance learning, we additionally propose the
self-supervised classification of two clips of a video into 1. overlapping 2.
ordered, or 3. unordered. Our experiments show that time-equivariant
representations achieve state-of-the-art results in video retrieval and action
recognition benchmarks on UCF101, HMDB51, and Diving48.
- Abstract(参考訳): ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。
既存のアプローチは、例えば時間変換への不変性を学ぶことで入力歪みの特異性を無視する。
代わりに、ビデオ表現はビデオのダイナミクスを保ち、入力の時間的操作を反映すべきであると主張する。
そこで我々は,時間変換と等価な表現を構築し,映像のダイナミックスをよりよく捉えるために,新しい制約を利用する。
本手法では,映像の拡張クリップ間の相対時間変換をベクトルに符号化し,他の変換ベクトルと対比する。
時間的等分散学習を支援するために,ビデオの2つのクリップの自己教師型分類を提案する。
1.重複
2.注文、または
3. 注文なし
実験により,UCF101,HMDB51,Diving48の映像検索および行動認識ベンチマークにおいて,時間的等式表現が最先端の結果が得られることが示された。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Self-Supervised Visual Learning by Variable Playback Speeds Prediction
of a Video [23.478555947694108]
ビデオの再生速度の変動を予測し,自己教師付き視覚学習手法を提案する。
再生速度に応じて映像の外観の変動を利用して映像のメタ時間的視覚変化を学習する。
また,3次元畳み込みネットワークに適用可能な時間群正規化手法を提案する。
論文 参考訳(メタデータ) (2020-03-05T15:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。