論文の概要: CoCon: Cooperative-Contrastive Learning
- arxiv url: http://arxiv.org/abs/2104.14764v1
- Date: Fri, 30 Apr 2021 05:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 00:08:56.065751
- Title: CoCon: Cooperative-Contrastive Learning
- Title(参考訳): CoCon: 協調コントラスト学習
- Authors: Nishant Rai, Ehsan Adeli, Kuan-Hui Lee, Adrien Gaidon, Juan Carlos
Niebles
- Abstract要約: 自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
- 参考スコア(独自算出の注目度): 52.342936645996765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Labeling videos at scale is impractical. Consequently, self-supervised visual
representation learning is key for efficient video analysis. Recent success in
learning image representations suggests contrastive learning is a promising
framework to tackle this challenge. However, when applied to real-world videos,
contrastive learning may unknowingly lead to the separation of instances that
contain semantically similar events. In our work, we introduce a cooperative
variant of contrastive learning to utilize complementary information across
views and address this issue. We use data-driven sampling to leverage implicit
relationships between multiple input video views, whether observed (e.g. RGB)
or inferred (e.g. flow, segmentation masks, poses). We are one of the firsts to
explore exploiting inter-instance relationships to drive learning. We
experimentally evaluate our representations on the downstream task of action
recognition. Our method achieves competitive performance on standard benchmarks
(UCF101, HMDB51, Kinetics400). Furthermore, qualitative experiments illustrate
that our models can capture higher-order class relationships.
- Abstract(参考訳): 大規模なビデオのラベル付けは現実的ではない。
その結果、効率的な映像解析には自己教師付き視覚表現学習が重要である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
しかし、現実世界の動画に適用すると、対照的な学習は、意味的に類似したイベントを含むインスタンスの分離につながる可能性がある。
本研究では,相互補完的情報を活用したコントラスト学習の協調型を導入し,この問題に対処した。
複数の入力ビデオビュー間の暗黙的な関係を利用してデータ駆動サンプリングを行う(例)。
RGB) または infered (例)
フロー、セグメンテーションマスク、ポーズ)。
私たちは、インスタンス間の関係を活用して学習を促進する最初の試みの1つです。
動作認識の下流タスクにおける表現を実験的に評価した。
本手法は標準ベンチマーク (ucf101, hmdb51, kinetics400) の競合性能を実現する。
さらに, 定性実験により, モデルが高次クラス関係を捉えることができることを示した。
関連論文リスト
- Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。