論文の概要: Nearest-Neighbor Inter-Intra Contrastive Learning from Unlabeled Videos
- arxiv url: http://arxiv.org/abs/2303.07317v1
- Date: Mon, 13 Mar 2023 17:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:37:35.683988
- Title: Nearest-Neighbor Inter-Intra Contrastive Learning from Unlabeled Videos
- Title(参考訳): ラベルなしビデオによる最寄り-neighbor間コントラスト学習
- Authors: David Fan, Deyu Yang, Xinyu Li, Vimal Bhat, Rohith MV
- Abstract要約: 最先端のコントラスト学習手法は、同じビデオから2つのクリップをポジティブとして増強する。
我々は、グローバル空間から最も近い隣の動画を、追加のポジティブなペアとして活用する。
時間的ビデオコントラスト学習 (II) は, 様々なビデオタスクのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 8.486392464244267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive learning has recently narrowed the gap between self-supervised
and supervised methods in image and video domain. State-of-the-art video
contrastive learning methods such as CVRL and $\rho$-MoCo spatiotemporally
augment two clips from the same video as positives. By only sampling positive
clips locally from a single video, these methods neglect other semantically
related videos that can also be useful. To address this limitation, we leverage
nearest-neighbor videos from the global space as additional positive pairs,
thus improving positive key diversity and introducing a more relaxed notion of
similarity that extends beyond video and even class boundaries. Our method,
Inter-Intra Video Contrastive Learning (IIVCL), improves performance on a range
of video tasks.
- Abstract(参考訳): コントラスト学習は、画像領域とビデオ領域における自己監督的手法と教師的手法のギャップを狭めた。
CVRLや$\rho$-MoCoのような最先端のビデオコントラスト学習手法は、時間的に同じビデオから2つのクリップを肯定的に増強する。
単一のビデオからローカルにポジティブなクリップをサンプリングするだけで、意味的に関連した他のビデオも無視できる。
この制限に対処するために、我々は、グローバル空間から最も近い隣の動画を追加のポジティブペアとして活用し、ポジティブなキーの多様性を改善し、ビデオやクラスの境界を超えて、よりリラックスした類似性の概念を導入する。
Intra Video Contrastive Learning (IIVCL) と呼ばれる手法は,様々なビデオタスクのパフォーマンスを向上させる。
関連論文リスト
- Learning video retrieval models with relevance-aware online mining [16.548016892117083]
典型的なアプローチは、ビデオと関連するキャプションの類似性を最大化する、共同のテキスト-ビデオ埋め込み空間を学習することである。
このアプローチでは、データセット内のビデオとキャプションペアのみが有効であると仮定するが、異なるキャプション — 肯定的な — もまたその視覚的内容を記述する可能性があるため、そのいくつかは誤って罰せられる可能性がある。
本稿では, 負のセマンティクスに基づいて, それらの選択を改善するとともに, 有効正の類似性を高めることを目的として, RANP(Relevance-Aware Negatives and Positives mining)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:23:55Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z) - Video Contrastive Learning with Global Context [37.966950264445394]
正のペアを定式化するためのセグメントに基づく新しいビデオレベルのコントラスト学習手法を提案する。
我々の定式化は、ビデオの中のグローバルなコンテキストをキャプチャできるので、時間的コンテンツの変化が堅牢になる。
論文 参考訳(メタデータ) (2021-08-05T16:42:38Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。