論文の概要: Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning
- arxiv url: http://arxiv.org/abs/2112.03906v2
- Date: Wed, 26 Jul 2023 14:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 16:52:50.960184
- Title: Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning
- Title(参考訳): 自己教師付きビデオ表現学習のためのクロスモーダルマニフォールドカットミックス
- Authors: Srijan Das and Michael S. Ryoo
- Abstract要約: 我々は,Cross-Modal Manifold Cutmix (CMMC)と呼ばれる,自己教師型学習のための新しいビデオ拡張手法を提案する。
特徴空間内の2つのモダリティにビデオテッセラクトを埋め込むことで,学習ビデオ表現の質を高めることができる。
本手法は他の自己教師型手法と同等の性能を示しながら,下流タスクのトレーニングデータが少ない。
- 参考スコア(独自算出の注目度): 50.544635516455116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the challenge of obtaining large-scale unlabelled
video datasets for contrastive representation learning in real-world
applications. We present a novel video augmentation technique for
self-supervised learning, called Cross-Modal Manifold Cutmix (CMMC), which
generates augmented samples by combining different modalities in videos. By
embedding a video tesseract into another across two modalities in the feature
space, our method enhances the quality of learned video representations. We
perform extensive experiments on two small-scale video datasets, UCF101 and
HMDB51, for action recognition and video retrieval tasks. Our approach is also
shown to be effective on the NTU dataset with limited domain knowledge. Our
CMMC achieves comparable performance to other self-supervised methods while
using less training data for both downstream tasks.
- Abstract(参考訳): 本稿では,実世界のアプリケーションにおけるコントラスト表現学習のための大規模ビデオデータセットの獲得という課題に対処する。
本稿では,ビデオの異なるモダリティを組み合わせることで拡張サンプルを生成するクロスモーダル多様体カットミックス(cmmc)と呼ばれる,自己教師付き学習のための新しい映像拡張手法を提案する。
特徴空間内の2つのモダリティにまたがってビデオテッセラクタを別のモードに埋め込むことにより,学習した映像表現の品質を高める。
我々は,アクション認識とビデオ検索のための2つの小規模ビデオデータセット ucf101 と hmdb51 について広範な実験を行った。
また,本手法はドメイン知識に制限のあるNTUデータセットに対して有効であることを示す。
我々のCMMCは、下流の両方のタスクで少ないトレーニングデータを使用しながら、他の自己管理手法と同等のパフォーマンスを達成する。
関連論文リスト
- VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool [21.182745175241894]
我々は,能動的学習パラダイムの下で,機械と人間の専門家を組み合わせた自動アノテーションツールを開発した。
MLLMの複雑な推論能力を最大化するために,CoTを利用して収集したデータセットに基づくベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-07T13:10:23Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - VideoMix: Rethinking Data Augmentation for Video Classification [29.923635550986997]
最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
論文 参考訳(メタデータ) (2020-12-07T05:40:33Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。