論文の概要: A Large-Scale Analysis on Self-Supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2306.06010v2
- Date: Mon, 20 Nov 2023 14:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:18:55.595948
- Title: A Large-Scale Analysis on Self-Supervised Video Representation Learning
- Title(参考訳): 自己監督型映像表現学習の大規模分析
- Authors: Akash Kumar, Ashlesha Kumar, Vibhav Vineet, Yogesh Singh Rawat
- Abstract要約: 本研究では,1)データセットのサイズ,2)複雑性,3)データ分布,4)データノイズ,5)機能解析の5つの側面について検討する。
この研究から得られた興味深い洞察は、事前学習とターゲットデータセット、プレテキストタスク、モデルアーキテクチャの様々な特性にまたがる。
本稿では,限られたトレーニングデータを必要とするアプローチを提案し,従来の10倍の事前学習データを用いた最先端のアプローチより優れた手法を提案する。
- 参考スコア(独自算出の注目度): 15.205738030787673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning is an effective way for label-free model
pre-training, especially in the video domain where labeling is expensive.
Existing self-supervised works in the video domain use varying experimental
setups to demonstrate their effectiveness and comparison across approaches
becomes challenging with no standard benchmark. In this work, we first provide
a benchmark that enables a comparison of existing approaches on the same
ground. Next, we study five different aspects of self-supervised learning
important for videos; 1) dataset size, 2) complexity, 3) data distribution, 4)
data noise, and, 5)feature analysis. To facilitate this study, we focus on
seven different methods along with seven different network architectures and
perform an extensive set of experiments on 5 different datasets with an
evaluation of two different downstream tasks. We present several interesting
insights from this study which span across different properties of pretraining
and target datasets, pretext-tasks, and model architectures among others. We
further put some of these insights to the real test and propose an approach
that requires a limited amount of training data and outperforms existing
state-of-the-art approaches which use 10x pretraining data. We believe this
work will pave the way for researchers to a better understanding of
self-supervised pretext tasks in video representation learning.
- Abstract(参考訳): 自己教師付き学習は、ラベル付けが高価であるビデオ領域において、ラベルなしモデルの事前学習に有効な方法である。
ビデオ領域における既存の自己監督型ワークは、さまざまな実験的なセットアップを使用して、その効果とアプローチ間の比較を実証する。
そこで本研究では,まず,既存のアプローチを同一条件で比較可能なベンチマークを提案する。
次に,ビデオにとって重要な自己教師型学習の5つの側面について検討する。
1)データセットサイズ。
2)複雑さ。
3)データ流通
4)データノイズ,5)特徴分析。
本研究では、7つの異なるネットワークアーキテクチャとともに7つの異なる手法に焦点を合わせ、5つの異なるデータセットに対する広範な実験を行い、2つの異なる下流タスクの評価を行う。
本研究から得られた興味深い知見は,事前学習やターゲットデータセット,プリテキストタスク,モデルアーキテクチャなど,さまざまな特性にまたがるものである。
さらに,これらの知見を実際のテストに適用し,限られたトレーニングデータを必要とするアプローチを提案し,事前トレーニングデータを10倍使用した既存の最先端のアプローチよりも優れる手法を提案する。
我々は、この研究が、ビデオ表現学習における自己教師付きプレテキストタスクの理解を深める道を開くと信じている。
関連論文リスト
- An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - A Review of Machine Learning Methods Applied to Video Analysis Systems [3.518774226658318]
本稿では,ビデオ解析のための機械学習技術の開発について調査する。
本稿では,ビデオ分析における自己教師型学習,半教師型学習,アクティブ学習,ゼロショット学習の開発の概要について述べる。
論文 参考訳(メタデータ) (2023-12-08T20:24:03Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - How Severe is Benchmark-Sensitivity in Video Self-Supervised Learning? [19.920980847895233]
我々は、現在使用されているベンチマーク基準に対して、ビデオ自己教師型学習がどれほど敏感であるかを調査する。
500以上の実験を総合的に比較したところ、ビデオ自己教師型学習における現在のベンチマークは、一般化のよい指標ではないことが判明した。
論文 参考訳(メタデータ) (2022-03-27T06:32:55Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Contrasting Contrastive Self-Supervised Representation Learning Models [29.1857781719894]
我々は,自己教師付き表現学習の最も成功し,人気のある変種の一つであるコントラスト的アプローチを分析した。
エンコーダ30台,プリトレーニングデータセット4台,ダウンストリームタスク20台を含む,700以上のトレーニング実験を行った。
論文 参考訳(メタデータ) (2021-03-25T17:40:38Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。
COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。
新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文 参考訳(メタデータ) (2020-03-20T16:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。