論文の概要: How Incomplete is Contrastive Learning? An Inter-intra Variant Dual
Representation Method for Self-supervised Video Recognition
- arxiv url: http://arxiv.org/abs/2107.01194v2
- Date: Mon, 5 Jul 2021 02:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 11:08:42.405720
- Title: How Incomplete is Contrastive Learning? An Inter-intra Variant Dual
Representation Method for Self-supervised Video Recognition
- Title(参考訳): コントラスト学習はいかに不完全か
自己教師付きビデオ認識のためのイントラ可変デュアル表現法
- Authors: Lin Zhang, Qi She, Zhengyang Shen, Changhu Wang
- Abstract要約: そこで本研究では,シャッフルランクのプリテキストタスクによって,各クリップのイントラばらつきを符号化する2つの表現を学習する。
実験結果から,本手法は内部分散と内部分散のバランスにおいて重要な役割を担っていることが明らかとなった。
UCF101 と HMDB51 のテストセットでそれぞれ $textbf82.0%$ と $textbf51.2% のダウンストリーム分類精度を実現している。
- 参考スコア(独自算出の注目度): 27.844863353375896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning applied to self-supervised representation learning has
seen a resurgence in deep models. In this paper, we find that existing
contrastive learning based solutions for self-supervised video recognition
focus on inter-variance encoding but ignore the intra-variance existing in
clips within the same video. We thus propose to learn dual representations for
each clip which (\romannumeral 1) encode intra-variance through a shuffle-rank
pretext task; (\romannumeral 2) encode inter-variance through a temporal
coherent contrastive loss. Experiment results show that our method plays an
essential role in balancing inter and intra variances and brings consistent
performance gains on multiple backbones and contrastive learning frameworks.
Integrated with SimCLR and pretrained on Kinetics-400, our method achieves
$\textbf{82.0\%}$ and $\textbf{51.2\%}$ downstream classification accuracy on
UCF101 and HMDB51 test sets respectively and $\textbf{46.1\%}$ video retrieval
accuracy on UCF101, outperforming both pretext-task based and contrastive
learning based counterparts.
- Abstract(参考訳): 自己指導型表現学習に適用されるコントラスト学習は、深層モデルで復活している。
本稿では,自己教師付きビデオ認識のための既存のコントラスト学習ベースのソリューションが,同一ビデオ内のクリップ内分散を無視しながら,分散符号化に重点を置いていることを見出した。
そこで本研究では,各クリップの2つの表現を学習し,シャッフルランクのプリテキストタスクでイントラ分散を符号化し,時間的コヒーレントなコントラスト損失で相互分散を符号化する手法を提案する。
実験の結果,本手法は相互および内部分散のバランスをとる上で重要な役割を担っており,複数のバックボーンとコントラスト学習フレームワーク上で一貫したパフォーマンス向上をもたらす。
SimCLR と統合して Kinetics-400 で事前訓練を行い,UCF101 と HMDB51 のテストセットの下流分類精度 $\textbf{82.0\%} と $\textbf{51.2\%} と $\textbf{46.1\%} と UCF101 の動画検索精度 $\textbf{46.1\%} をそれぞれ達成した。
関連論文リスト
- DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Self-Supervised Video Representation Learning with Meta-Contrastive
Network [10.768575680990415]
自己教師型アプローチの学習能力を高めるためのメタコントラストネットワーク(MCN)を提案する。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNは最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-08-19T01:21:13Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。