論文の概要: Cross-Architecture Self-supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2205.13313v1
- Date: Thu, 26 May 2022 12:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:30:41.308553
- Title: Cross-Architecture Self-supervised Video Representation Learning
- Title(参考訳): クロスアーキテクチャな自己教師型ビデオ表現学習
- Authors: Sheng Guo, Zihua Xiong, Yujie Zhong, Limin Wang, Xiaobo Guo, Bing Han,
Weilin Huang
- Abstract要約: 自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 42.267775859095664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new cross-architecture contrastive learning
(CACL) framework for self-supervised video representation learning. CACL
consists of a 3D CNN and a video transformer which are used in parallel to
generate diverse positive pairs for contrastive learning. This allows the model
to learn strong representations from such diverse yet meaningful pairs.
Furthermore, we introduce a temporal self-supervised learning module able to
predict an Edit distance explicitly between two video sequences in the temporal
order. This enables the model to learn a rich temporal representation that
compensates strongly to the video-level representation learned by the CACL. We
evaluate our method on the tasks of video retrieval and action recognition on
UCF101 and HMDB51 datasets, where our method achieves excellent performance,
surpassing the state-of-the-art methods such as VideoMoCo and MoCo+BE by a
large margin. The code is made available at https://github.com/guoshengcv/CACL.
- Abstract(参考訳): 本稿では,自己教師型ビデオ表現学習のためのクロスアーキテクチャコントラスト学習(CACL)フレームワークを提案する。
CACLは3D CNNとビデオトランスフォーマーで構成されており、コントラスト学習のための多様な正対を生成するために並列に使用される。
これにより、モデルはこのような多様で有意義なペアから強い表現を学ぶことができる。
さらに、時間順に2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを導入する。
これにより、CACLが学習したビデオレベルの表現に強く補完するリッチな時間表現を学習することができる。
提案手法は,UCF101およびHMDB51データセット上での映像検索と行動認識のタスクにおいて,ビデオMoCoやMoCo+BEといった最先端の手法を大きなマージンで上回り,優れた性能を実現する。
コードはhttps://github.com/guoshengcv/caclで入手できる。
関連論文リスト
- Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Cycle-Contrast for Self-Supervised Video Representation Learning [10.395615031496064]
本稿では,ビデオ表現を学習する新たな自己指導手法であるCCLについて述べる。
本手法では,R3Dアーキテクチャに基づく1つのネットワークからフレームとビデオの表現を学習する。
我々は,CCLが学習した映像表現が,映像理解の下流タスクにうまく移行できることを実証した。
論文 参考訳(メタデータ) (2020-10-28T08:27:58Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Temporally Coherent Embeddings for Self-Supervised Video Representation
Learning [2.216657815393579]
本稿では,自己教師型ビデオ表現学習のためのテンポラリコヒーレントな埋め込みについて述べる。
提案手法は,非ラベル付きビデオデータの固有構造を利用して,埋め込み空間における時間的コヒーレンシを明示的に強制する。
単純な2D-CNNバックボーンとRGBストリーム入力のみにより、TCE事前訓練された表現は、UCF101で事前訓練された以前の2D-CNNと3D-CNNよりも優れていた。
論文 参考訳(メタデータ) (2020-03-21T12:25:50Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。