論文の概要: Self-supervised Video Representation Learning with Cascade Positive
Retrieval
- arxiv url: http://arxiv.org/abs/2201.07989v1
- Date: Thu, 20 Jan 2022 03:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 00:48:07.629839
- Title: Self-supervised Video Representation Learning with Cascade Positive
Retrieval
- Title(参考訳): カスケードポジティブ検索による自己教師付き映像表現学習
- Authors: Cheng-En Wu, Farley Lai, Yu Hen Hu, Asim Kadav
- Abstract要約: コントラスト学習の正の例を連続的に掘り下げるカスケード正の検索式(CPR)を提示する。
CPRは83.3%の中央値の鉱業リコールに達し、以前の業績を5.5%上回った。
大規模なビデオデータセットであるKineetics400からUCF101とHDMBへの転送では、CPRは既存の作業に恩恵をもたらし、競合するトップ1のアキュラシーは85.1%と57.4%である。
- 参考スコア(独自算出の注目度): 14.934032347716993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised video representation learning has been shown to effectively
improve downstream tasks such as video retrieval and action recognition.In this
paper, we present the Cascade Positive Retrieval (CPR) that successively mines
positive examples w.r.t. the query for contrastive learning in a cascade of
stages. Specifically, CPR exploits multiple views of a query example in
different modalities, where an alternative view may help find another positive
example dissimilar in the query view. We explore the effects of possible CPR
configurations in ablations including the number of mining stages, the top
similar example selection ratio in each stage, and progressive training with an
incremental number of the final Top-k selection. The overall mining quality is
measured to reflect the recall across training set classes. CPR reaches a
median class mining recall of 83.3%, outperforming previous work by 5.5%.
Implementation-wise, CPR is complementary to pretext tasks and can be easily
applied to previous work. In the evaluation of pretraining on UCF101, CPR
consistently improves existing work and even achieves state-of-the-art R@1 of
56.7% and 24.4% in video retrieval as well as 83.8% and 54.8% in action
recognition on UCF101 and HMDB51. For transfer from large video dataset
Kinetics400 to UCF101 and HDMB, CPR benefits existing work, showing competitive
Top-1 accuracies of 85.1% and 57.4% despite pretraining at a lower resolution
and frame sampling rate. The code will be released soon for reproducing the
results. The code is available at https://github.com/necla-ml/CPR.
- Abstract(参考訳): 本稿では,映像検索や行動認識などの下流タスクを効果的に改善するために,自己指導型映像表現学習(Self-supervised video representation learning)が実証例を連続的に抽出するCPR(Cascade Positive Retrieval)を提案する。
具体的には、CPRはクエリの例の複数のビューを異なるモードで利用し、別のビューはクエリのビューで異なる別のポジティブな例を見つけるのに役立つかもしれない。
本研究は,鉱業段階数,各段階における類似例選択率,最終Top-k選択回数の漸進的数による漸進的トレーニングなど,AblationにおけるCPR構成の可能性を検討する。
全体の鉱業品質は、トレーニングセットのクラス間でのリコールを反映して測定される。
CPRは83.3%の中央値の鉱業リコールに達し、以前の業績を5.5%上回った。
実装面では、CPRはプリテキストタスクを補完し、以前の作業にも容易に適用できる。
UCF101での事前トレーニングの評価では、CPRは既存の作業の改善を一貫して行い、ビデオ検索では56.7%、24.4%、UCF101およびHMDB51では83.8%、54.8%の最先端のR@1を達成している。
大規模なビデオデータセットであるKineetics400からUCF101とHDMBへの転送は、CPRが既存の作業に有効であり、低い解像度とフレームサンプリング率で事前訓練されているにもかかわらず、競合するトップ1の精度は85.1%と57.4%であった。
コードはすぐにリリースされ、結果が再現される。
コードはhttps://github.com/necla-ml/cprで入手できる。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - SLIC: Self-Supervised Learning with Iterative Clustering for Human
Action Videos [14.261054806885708]
本研究では,人間のアクションビデオのためのクラスタリングに基づく自己教師付きコントラスト学習手法であるSLICを提案する。
我々の重要な貢献は、類似の動画インスタンスをグループ化するために反復的クラスタリングを用いることで、従来のビデオ内正のサンプリングを改善することである。
SLICはUCF101で83.2%、HMDB51で54.5%の精度(+0.8%)を達成した。
論文 参考訳(メタデータ) (2022-06-25T02:20:51Z) - CaCo: Both Positive and Negative Samples are Directly Learnable via
Cooperative-adversarial Contrastive Learning [45.68097757313092]
クエリアンカーが与えられた負のサンプルと正のサンプルを区別することで、エンコーダを訓練する。
比較損失の最小化と最大化により, 正および負のサンプルを協調的に, 対角的に学習できることが示唆された。
提案手法は、ImageNet1K上で事前トレーニングされたResNet-50バックボーンの200と800のエポックに対して、トップ1の精度で71.3%と75.3%を達成する。
論文 参考訳(メタデータ) (2022-03-27T18:50:39Z) - Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。
また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文 参考訳(メタデータ) (2021-12-07T21:50:40Z) - Self-supervised Video Representation Learning with Cross-Stream
Prototypical Contrasting [2.2530496464901106]
ビデオ・クロスストリーム・プロトタイプ・コントラスティング」はRGBと光フロービューの両方から一貫したプロトタイプの割り当てを予測する新しい手法である。
最寄りの映像検索と行動認識における最先端の検索結果を得る。
論文 参考訳(メタデータ) (2021-06-18T13:57:51Z) - Space-Time Crop & Attend: Improving Cross-modal Video Representation
Learning [88.71867887257274]
トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-03-18T12:32:24Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。