論文の概要: STC-mix: Space, Time, Channel mixing for Self-supervised Video
Representation
- arxiv url: http://arxiv.org/abs/2112.03906v1
- Date: Tue, 7 Dec 2021 18:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 15:02:25.268306
- Title: STC-mix: Space, Time, Channel mixing for Self-supervised Video
Representation
- Title(参考訳): STC-mix: 自己監督型ビデオ表現のための空間, 時間, チャネルミキシング
- Authors: Srijan Das and Michael S. Ryoo
- Abstract要約: 本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
- 参考スコア(独自算出の注目度): 47.54827916387143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive representation learning of videos highly relies on the
availability of millions of unlabelled videos. This is practical for videos
available on web but acquiring such large scale of videos for real-world
applications is very expensive and laborious. Therefore, in this paper we focus
on designing video augmentation for self-supervised learning, we first analyze
the best strategy to mix videos to create a new augmented video sample. Then,
the question remains, can we make use of the other modalities in videos for
data mixing? To this end, we propose Cross-Modal Manifold Cutmix (CMMC) that
inserts a video tesseract into another video tesseract in the feature space
across two different modalities. We find that our video mixing strategy
STC-mix, i.e. preliminary mixing of videos followed by CMMC across different
modalities in a video, improves the quality of learned video representations.
We conduct thorough experiments for two downstream tasks: action recognition
and video retrieval on two small scale video datasets UCF101, and HMDB51. We
also demonstrate the effectiveness of our STC-mix on NTU dataset where domain
knowledge is limited. We show that the performance of our STC-mix on both the
downstream tasks is on par with the other self-supervised approaches while
requiring less training data.
- Abstract(参考訳): ビデオのコントラスト表現学習は、数百万のビデオが利用できることに依存している。
これはWeb上のビデオには実用的だが、現実世界のアプリケーションのための大規模なビデオの入手は非常に高価で手間がかかる。
そこで,本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあて,まず,ビデオの混合による新しいビデオサンプル作成のための最善の戦略を分析する。
では、ビデオの他のモダリティをデータミキシングに利用できるのか、という疑問が残る。
そこで本研究では,ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
ビデオミキシング戦略stc-mix,すなわちビデオの予備ミキシングとcmmcをビデオ内の異なるモダリティにまたがって行うことにより,学習した映像表現の品質が向上することがわかった。
小型ビデオデータセットUCF101とHMDB51の2つのダウンストリームタスクに対して、アクション認識とビデオ検索の徹底的な実験を行った。
また,ドメイン知識が限られているNTUデータセットに対して,STC-mixの有効性を示す。
両ダウンストリームタスクにおけるSTC-mixの性能は、トレーニングデータが少ない一方で、他の自己教師型アプローチと同等であることを示す。
関連論文リスト
- VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool [21.182745175241894]
我々は,能動的学習パラダイムの下で,機械と人間の専門家を組み合わせた自動アノテーションツールを開発した。
MLLMの複雑な推論能力を最大化するために,CoTを利用して収集したデータセットに基づくベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-07T13:10:23Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - VideoMix: Rethinking Data Augmentation for Video Classification [29.923635550986997]
最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
論文 参考訳(メタデータ) (2020-12-07T05:40:33Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。